2017-05-04 109 views
0

我正在处理图像项目。我必须做的是从图像中提取文本,我实际上在windows上使用了tesseract 3.03的python包装器,并且我已经下载了许多语言的.traineddata文件(英文,frensh,...)。问题是我在某处看到tesseract尝试在检测到分隔字符后使用wordlist文件检测单词。我的问题是如何在不使用wordlist的情况下生成.traineddata文件,因为我想要tesseract返回检测到的句子而不验证单词生成eng.traineddata tesseract 3.03不使用wordlist

回答

0

您可以解压缩.traineddata文件,将字典组件替换为空文件并重新打包。或者你可以简单地禁用字典。

Disable dictionary in Tesseract

+0

太感谢你了,我会尝试,并提供反馈 – jonathan

+0

我已经做了快速搜索,我明白了.traineddata文件被啃文件 tessdata/eng.config 产生tessdata/eng.unicharset tessdata/eng.unicharambigs tessdata/eng.inttemp tessdata/eng.pffmtable tessdata/eng.normproto tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata /工程。 number-dawg tessdat A/eng.freq-耶 和你说,我将取代 tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata/eng.number-耶 tessdata/eng.freq,耶 由空的ones.The问题现在是在哪里可以找到其他文件的tesseract 3.02 – jonathan

+0

我只是在寻找一个unicharset文件和相应的inttemp,pffmtable,normproto for english,tesseract 3.02 – jonathan