2017-08-08 116 views
0

我在使用Tesseract识别文本时遇到问题,需要一些帮助。Tesseract - 识别文本问题

第一个是输入,这是非常模糊的,不得到认可:

fuzzytext

第二个是一个输入,给出了一个破碎的结果:

texterrors

它返回这个坏的结果:

“我曲轴的力量每次燃烧发生时,fo当曲轴将扭矩传递到输出轴上时,曲轴会影响曲轴。这种缺陷发生在两种方式之中,即在轴的边缘方式中,以扭转轴在扭转轴上的方式。跑ankshaft德FL ections被edirectly相关oper-的einng。当后台和-F提出”

我打电话使用此命令行PHP这也许可以修改,以提供更好的结果窗口EXE的阿婷粗糙度:

$exe = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'; 
$image = 'Book.png'; 
$output = 'Out'; 
$language = ''; // '-l deu' = German etc 

$img = 'Images/' . $image; 

exec("\"$exe\" \"$img\" \"$output\" {$language} "); 

我怎样才能返回正确的结果为两个图像?

+0

我与正方体的经验,这是一个平均的结果。文本的轻微旋转可能会导致这些问题,你有没有考虑纠正? –

+0

我该怎么做? – zeddex

+1

我推荐phpgd库或Imagick。但真正的问题将是检测旋转,因为我认为你想识别各种图像,而不仅仅是这个,你可以在那里预先定义旋转。或者是否可以手动定义每个图像的旋转角度? –

回答

0

使用ImageMagick和形态关闭和打开一个可以提高第一张图像。

convert jrxjek.png -morphology close diamond:1 -morphology open diamond:1 jrxjek_close_open.png 

enter image description here

在ImageMagick中使用我的一个bash unix shell脚本,可以自动检测文本图像中的旋转并对其进行歪斜/反旋转。

textdeskew crankshaft.png crankshaft_textdeskew.png 

enter image description here

见我的剧本在http://www.fmwconcepts.com/imagemagick/index.html