我正在寻找一个在Windows XP上运行的开源OCR库。我需要这个工作的图像和PDF文件。大多数情况下我想从java接口这个库。任何想法,如果有什么可用的?在Windows XP上运行的开源OCR库
问候。
我正在寻找一个在Windows XP上运行的开源OCR库。我需要这个工作的图像和PDF文件。大多数情况下我想从java接口这个库。任何想法,如果有什么可用的?在Windows XP上运行的开源OCR库
问候。
http://roncemer.com/software-development/java-ocr/
“的Java OCR是用于图像处理和字符识别纯Java库套件。”
正方体可能是目前最准确的开源OCR引擎。结合Leptonica图像处理库,它可以读取各种图像格式,并将其转换为60多种语言的文本。它是1995年UNLV精度测试中排名前三的发动机之一。在1995年到2006年之间,它几乎没有完成任何工作,但从那时起,Google已经进行了大量改进。它是在Apache许可证2.0下发布的。
正方体工作在Linux,的Windows(与VC++ Express或CygWin的) 和Mac OSX
我想看看在Apache提卡项目并将其与Tesseract OCR结合使用。 Apache Tika管理从各种各样的文件类型中打开和提取内容。它具有非常可插拔的设计,因此您可以连接OCR进行输入,甚至可以将其输出连接到Lucene进行搜索。它是纯粹的Java。
有由热上做研究关于OCR庞大的工作,看看this
退房Tess4J,一个Java JNA包装为正方体OCR API。
但蒂卡提取文本信息,对不对?图像(元数据除外)怎么样? – rajesh 2013-04-24 07:14:48