生成eng.traineddata tesseract 3.03不使用wordlist

我正在处理图像项目。我必须做的是从图像中提取文本，我实际上在windows上使用了tesseract 3.03的python包装器，并且我已经下载了许多语言的.traineddata文件（英文，frensh，...）。问题是我在某处看到tesseract尝试在检测到分隔字符后使用wordlist文件检测单词。我的问题是如何在不使用wordlist的情况下生成.traineddata文件，因为我想要tesseract返回检测到的句子而不验证单词生成eng.traineddata tesseract 3.03不使用wordlist

来源

2017-05-04 jonathan

您可以解压缩.traineddata文件，将字典组件替换为空文件并重新打包。或者你可以简单地禁用字典。

Disable dictionary in Tesseract

来源

2017-05-04 14:29:42 nguyenq

太感谢你了，我会尝试，并提供反馈 – jonathan

我已经做了快速搜索，我明白了.traineddata文件被啃文件 tessdata/eng.config 产生tessdata/eng.unicharset tessdata/eng.unicharambigs tessdata/eng.inttemp tessdata/eng.pffmtable tessdata/eng.normproto tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata /工程。 number-dawg tessdat A/eng.freq-耶和你说，我将取代 tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata/eng.number-耶 tessdata/eng.freq，耶由空的ones.The问题现在是在哪里可以找到其他文件的tesseract 3.02 – jonathan

我只是在寻找一个unicharset文件和相应的inttemp，pffmtable，normproto for english，tesseract 3.02 – jonathan

生成eng.traineddata tesseract 3.03不使用wordlist

回答

相关问题