从tesseract hocr xhtml文件中提取数据 [英] Extract data from tesseract hocr xhtml file
问题描述
我正在尝试使用 Python 从 Tesseract 的 hocr 输出文件中提取数据.我们仅限于 tesseact 3.04 版,因此没有 image_to_data 函数或 tsv 输出可用.我已经能够用 beautifulsoup 和 R 来做到这一点,但这在需要部署它的环境中都不可用.我只是想提取x_wconf"这个词和信心.下面是一个示例输出文件,我很乐意只返回 [90, 87, 89, 89] 和 ['the', '(quick)', '[brown]', '{fox}] 的列表','跳跃!'].
lxml 是环境中 elementtree 之外唯一可用的 xml 解析器,所以我对如何进行有点不知所措.
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en"><头><title></title><meta http-equiv="Content-Type" content="text/html;charset=utf-8"/><meta name='ocr-system' content='tesseract 3.05.00dev'/><meta name='ocr-capabilities' content='ocr_page ocr_carea ocr_par ocr_line ocrx_word'/>头部><身体><div class='ocr_page' id='page_1' title='image "./testing/eurotext.png";bbox 0 0 1024 800;ppageno 0'><div class='ocr_carea' id='block_1_1' title="bbox 98 66 918 661"><p class='ocr_par' id='par_1_1' lang='eng' title="bbox 98 66 918 661"><span class='ocr_line' id='line_1_1' title="bbox 105 66 823 113;基线 0.015 -18; x_size 39; x_descenders 7; x_ascenders 9"><span class='ocrx_word' id='word_1'title='bbox 105 66 178 97;x_wconf 90'><span class='ocrx_word' id='word_1_2' title='bbox 205 67 347 106;x_wconf 87'><strong>(快速)</strong></span><span class='ocrx_word' id='word_1_3' title='bbox 376 69 528 109;x_wconf 89'>[棕色]<span class='ocrx_word' id='word_1_4' title='bbox 559 71 663 110;x_wconf 89'>{fox}</span><span class='ocrx_word' id='word_1_5' title='bbox 687 73 823 113;x_wconf 89'>跳跃!</span></span></p>