2017-04-13 217 views
2

我想对打印的文档进行文本分割。我已经将文档分割为字符分割,但是当我碰到一些感人的角色时,我失败了。我只想使用Tesseract OCR来分割单词。我知道Tesseract可以完成这项任务,但是我不知道如何在不挖掘tesseract的内部代码的情况下访问它。任何人都可以给我一些建议吗?如果可能的话,我需要Python。仅使用Tesseract OCR进行字符分割

回答

1

如果您可以调用TessBaseAPIGetComponentImages API方法,则可以在各种pageIteratorLevel级别(符号/字符,字,行等)上检索分割,而无需在图像上执行实际的OCR。