我正在努力让林肯字体在Tesseract中工作,即使经历了wildly complicated training process之后,我也得到了糟糕的结果。向Tesseract OCR引擎添加Blackletter字体支持
这是字体的样子,所以是的,这是一个有点棘手:
我精心制作训练图像,然后用,为了使文件箱。 The training image is here (25MB!)。图像是300 DPI,并有垂直和水平很好的代表性字符。
我为训练图像制作了一个盒子文件,它工作正常。我已使用a box file editor验证它是正确的。
我把这个盒子文件/ tif文件,并用它来创建训练数据。我也采用了Tesseract提供的30 or so other sample images/fonts。
我创建了unicharset文件。
我创建了一个font_properties文件。在网站上没有关于何时应该使用fraktur的指导。所以,我已经试过了两个这样(fraktur对林肯):
eng.lincoln.box 0 0 0 0 1
而且这种方式(fraktur关闭):
eng.lincoln.box 0 0 0 0 0
最后,我有和没有字典试过这种文件。当我使用字典文件时,它们是我的搜索引擎Sphinx的wordmap,它们有大约15K个常用字和大约20K个不常用字。
在所有情况下,当我尝试OCR第一对夫妇this file (3MB)时,质量很差。而不思:
United States Court of Appeals
for the Federal Circuit
我得到:
OniteiJ %tates C0urt of QppeaIs
for the jfeI1eraICircuit
为什么?
最终,我做出更大的训练文件,并一遍又一遍地重复训练过程,直到它的工作。谢谢您的帮助。 – mlissner 2012-02-13 08:04:25