开源OCR

我正在寻找一个开源的OCR库在Linux上运行。我需要这个工作PNG和PDF。主要是我想从Java或Ruby接口这个库。任何想法，如果有什么可用的？开源OCR

问候。

2011-03-01 Chris

已检查该文本是不是在PDF已经上市，对不对？（我依稀记得，PNG，可能还需要存储文本的能力，但我可能是错那里）。 – 2011-05-15 23:37:12

http://www.roncemer.com/software-development/java-ocr – Trick 2012-08-28 08:49:30

Cuneiform是免费的，做一个体面的工作。你可以调用它作为一个子程序，但没有语言的结合，我知道的。它不会直接读取PDF文件，但你可以很容易地拆开是养活他们楔形文字扫描图像序列的PDF文件。还有一些脚本来重新组装图像和文本返回到一个可搜索的PDF。

2011-03-01 08:04:19

该项目已通过惠普实验室推出，现在由谷歌继续和赞助（对于谷歌图书！）。它在Apache许可证下发布，并在Linux上运行。它使用Tiff或PNG文件;对于PDF文件，您将需要转换为这些格式之一。我想没有绑定，所以你应该调用这个软件作为子程序...

2011-03-01 08:05:15 olivierlemasle

尝试tesjeract，它使用JNI调用Tesseract OCR API。

对于PDF，你需要首先转换成图像，使用GhostScript的，例如。

2011-05-15 00:27:29 nguyenq

回答