2
我在寻找可应用于文本PDF的布局分析库或工具(最好是开源),以识别主要文本内容与侧边栏,章节标题,章节标题(可能甚至是具有装饰/阴影和下划线的花式文档)等。我遇到了像OCRopus这样的工具,它们使用OCR和图像识别来识别布局。有没有可以在没有OCR的情况下执行相同的库?可以从文本PDF中提取文本和图像,并向工具提供包含文本和图像位置的输入;对这样的文件使用OCR将是相当迂回的。任何通用布局分析库或不基于OCR的工具?
谢谢。顺便说一句,在发布这个问题后,我碰巧遇到了OCRFeeder,尽管我还没有尝试使用它。 – so2 2013-05-14 00:28:28