2012-02-19 124 views
2

我试图识别一个图像(形式)并转换成文本,目前使用谷歌“tesseract-ocr”的egg.trained数据,这适用于打印字符和手动书写(写由我手动)我开发了一个训练有素的数据,这对我训练的人物来说很好。无论我想合并这两个训练的数据(tesseract-ocr +我自己训练的数据),所以我可以识别手写和打印字符在一个单一的形式,请让我知道如何将这两个文件合并成一个。合并两个OCR训练数据

回答

5

无需合并它们。 Tesseract 3.02支持多种语言的识别 - 例如,您可以指定“egg + eng + blah”作为-l选项的值。

+0

thx的答复,即时通讯使用Tesseract 3.01,不支持你提到的功能,有没有什么办法可以在3.1版本中做同样的事情,或者我如何下载tesseract,猜测它不是正常的。 – optimus 2012-02-20 16:26:37

+1

您可以从http://code.google.com/p/tesseract-ocr/source/checkout中查看源代码并构建3.02可执行文件。 – nguyenq 2012-02-20 16:44:28

+0

Thx为你的时间,我尝试使用SVN并尝试下载,但它说不存在。 命令:导出 错误:URL'http://tesseract-ocr.googlecode.com/svn/trunk/%20tesseract-ocr-read-only' 错误:不存在 已完成!: – optimus 2012-02-20 17:23:29