如何获取识别字符的坐标

我有一个基于Tesseract的非常简单的OCR应用程序。在识别步骤之后，我还提供了一个用户验证步骤，在OCR错误的情况下允许更正。为了改进用户界面，我打算在原始输入图像OCR-ed字符顶部绘制一个矩形，并将其与OCR输出并排放置。为了达到这一点，我需要识别字符的坐标。如何获取识别字符的坐标

我想是这样的，但它似乎给我废话

ETEXT_DESC output; 
    tess->Recognize(&output); 
    text = tess->GetUTF8Text();

现在，如果我访问输出 - >计，它给了我10,000以上某个值，这显然是错误的，因为整个图像只有20个左右的字符。

我在正确的轨道上吗？我可以请一些方向吗？

2011-09-06 Haoest

也许这有助于获取框的坐标。尝试tesseract的可执行文件。毕竟你每一个字符，每行一个坐标命令

“tesseract.exe [图片] [输出] makebox”

。然后你可以比较。

2012-03-16 13:38:45

如何通过编程获取该信息？ – Haoest

的tesseract可执行文件有一个选项HOCR输出识别的字符和他们coordiantes在HTML格式。为了以编程方式获得这个结果，FAQ表示baseapi.h。

2013-04-03 04:47:11 michaelliu

回答