2013-05-08 44 views
2

我在寻找可应用于文本PDF的布局分析库或工具(最好是开源),以识别主要文本内容与侧边栏,章节标题,章节标题(可能甚至是具有装饰/阴影和下划线的花式文档)等。我遇到了像OCRopus这样的工具,它们使用OCR和图像识别来识别布局。有没有可以在没有OCR的情况下执行相同的库?可以从文本PDF中提取文本和图像,并向工具提供包含文本和图像位置的输入;对这样的文件使用OCR将是相当迂回的。任何通用布局分析库或不基于OCR的工具?

回答

1

我也不知道这样的独立(如在不依赖于OCR或图像处理)库,但你应该能够使用OCRopus或OCRFeeder(https://live.gnome.org/OCRFeeder)的布局检测片。你看过后者吗?显然,它可以与几乎任何标准的OCR引擎一起工作,这意味着可以通过创建自己的“虚拟OCR”来使用布局分析部分,这种“虚拟OCR”可以根据您的自定义逻辑提取数据(而不是任何实际的图像处理)到OCRFeeder。

+0

谢谢。顺便说一句,在发布这个问题后,我碰巧遇到了OCRFeeder,尽管我还没有尝试使用它。 – so2 2013-05-14 00:28:28