2013-04-24 81 views
0

我正在寻找一个在Windows XP上运行的开源OCR库。我需要这个工作的图像和PDF文件。大多数情况下我想从java接口这个库。任何想法,如果有什么可用的?在Windows XP上运行的开源OCR库

问候。

回答

1

检查Tesseract

正方体可能是目前最准确的开源OCR引擎。结合Leptonica图像处理库,它可以读取各种图像格式,并将其转换为60多种语言的文本。它是1995年UNLV精度测试中排名前三的发动机之一。在1995年到2006年之间,它几乎没有完成任何工作,但从那时起,Google已经进行了大量改进。它是在Apache许可证2.0下发布的。

正方体工作在Linux,的Windows(与VC++ Express或CygWin的) 和Mac OSX

这里是一个comparision table from wiki

0

我想看看在Apache提卡项目并将其与Tesseract OCR结合使用。 Apache Tika管理从各种各样的文件类型中打开和提取内容。它具有非常可插拔的设计,因此您可以连接OCR进行输入,甚至可以将其输出连接到Lucene进行搜索。它是纯粹的Java。

+0

但蒂卡提取文本信息,对不对?图像(元数据除外)怎么样? – rajesh 2013-04-24 07:14:48

0

退房Tess4J,一个Java JNA包装为正方体OCR API。