0
我正在处理图像项目。我必须做的是从图像中提取文本,我实际上在windows上使用了tesseract 3.03的python包装器,并且我已经下载了许多语言的.traineddata文件(英文,frensh,...)。问题是我在某处看到tesseract尝试在检测到分隔字符后使用wordlist文件检测单词。我的问题是如何在不使用wordlist的情况下生成.traineddata文件,因为我想要tesseract返回检测到的句子而不验证单词生成eng.traineddata tesseract 3.03不使用wordlist
太感谢你了,我会尝试,并提供反馈 – jonathan
我已经做了快速搜索,我明白了.traineddata文件被啃文件 tessdata/eng.config 产生tessdata/eng.unicharset tessdata/eng.unicharambigs tessdata/eng.inttemp tessdata/eng.pffmtable tessdata/eng.normproto tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata /工程。 number-dawg tessdat A/eng.freq-耶 和你说,我将取代 tessdata/eng.punc-耶 tessdata/eng.word-耶 tessdata/eng.number-耶 tessdata/eng.freq,耶 由空的ones.The问题现在是在哪里可以找到其他文件的tesseract 3.02 – jonathan
我只是在寻找一个unicharset文件和相应的inttemp,pffmtable,normproto for english,tesseract 3.02 – jonathan