2011-03-01 62 views
15

我正在寻找一个开源的OCR库在Linux上运行。我需要这个工作PNG和PDF。主要是我想从Java或Ruby接口这个库。任何想法,如果有什么可用的?开源OCR

问候。

+0

已检查该文本是不是在PDF已经上市,对不对? (我依稀记得,PNG,可能还需要存储文本的能力,但我可能是错那里)。 – 2011-05-15 23:37:12

+0

http://www.roncemer.com/software-development/java-ocr – Trick 2012-08-28 08:49:30

回答

1

Cuneiform是免费的,做一个体面的工作。你可以调用它作为一个子程序,但没有语言的结合,我知道的。它不会直接读取PDF文件,但你可以很容易地拆开是养活他们楔形文字扫描图像序列的PDF文件。还有一些脚本来重新组装图像和文本返回到一个可搜索的PDF。

12

正方体是一个非常好的OCR引擎:https://github.com/tesseract-ocr/tesseract

该项目已通过惠普实验室推出,现在由谷歌继续和赞助(对于谷歌图书!)。它在Apache许可证下发布,并在Linux上运行。它使用Tiff或PNG文件;对于PDF文件,您将需要转换为这些格式之一。我想没有绑定,所以你应该调用这个软件作为子程序...

0

尝试tesjeract,它使用JNI调用Tesseract OCR API。

对于PDF,你需要首先转换成图像,使用GhostScript的,例如。