2012-08-17 124 views

回答

3

以下增加至上述命令适用于你的第二个图像:

-negate \ 
-deskew 40% \ 
+repage \ 
-crop 393x110+0+0 \ 

他们添加的适当水平歪斜和裁剪的结果,使Tesseract的生活变得更容易...

所以完整的命令应该是下面的,它产生在我的系统上正确的结果:

convert 15071917.jpg   \ 
    -type grayscale    \ 
    -negate      \ 
    -gamma 1      \ 
    -contrast -contrast -contrast -contrast -contrast -contrast -contrast -contrast -contrast -contrast \ 
    -normalize -normalize -normalize -normalize -normalize -normalize -normalize -normalize -normalize -normalize \ 
    -despeckle -despeckle -despeckle -despeckle -despeckle -despeckle -despeckle -despeckle -despeckle -despeckle \ 
    -negate      \ 
    -deskew 40%     \ 
    +repage      \ 
    -crop 393x110+0+0   \ 
    15071917.png    \ 
&&        \ 
tesseract 15071917.png OUT && cat OUT.txt 

    Tesseract Open Source OCR Engine v3.01 with Leptonica 
    Page 0 
    TESCO 

这是原始图像(左)与所得到的修改命令的图片(右):  

+0

它工作得很好!非常感谢你的答复,也许我可以在其他类似的图片上尝试相同的想法。 – curious 2012-08-19 07:05:14

1

该命令对我的作品的第一个图像文件。我使用ImageMagick的版本6.7.9-0 2012-08-17 Q16

convert 1school.jpg       \ 
    -scale 1000%        \ 
    -blur 1x65535 -blur 1x65535 -blur 1x65535 \ 
    -contrast         \ 
    -normalize        \ 
    -despeckle        \ 
    -despeckle        \ 
    -type grayscale       \ 
    -sharpen 1        \ 
    -posterize 3        \ 
    -negate 1school.tif      \ 
&&           \ 
tesseract 1school.tif OUT && cat OUT.txt 

    Tesseract Open Source OCR Engine v3.01 with Leptonica 
    Page 0 
    ' 
    SCHOOL 
    ZONE 

第2图像需要不同的命令:

convert 15071917.jpg   \ 
    -type grayscale    \ 
    -negate      \ 
    -gamma 1      \ 
    -contrast -contrast -contrast -contrast -contrast -contrast -contrast -contrast -contrast -contrast \ 
    -normalize -normalize -normalize -normalize -normalize -normalize -normalize -normalize -normalize -normalize \ 
    -despeckle -despeckle -despeckle -despeckle -despeckle -despeckle -despeckle -despeckle -despeckle -despeckle \ 
    15071917.tif    \ 
&&        \ 
tesseract 1school.tif OUT && cat OUT.txt 

    Tesseract Open Source OCR Engine v3.01 with Leptonica 
    Page 0 
    TE§§IO 

好了,第二个是不太成功的。但你明白了......

这里是最终的图像。左边是原件,从命令正确的结果:

1st original   modified 1st original
 

+0

感谢您的回复。我试过了,它工作。我会尝试其他可能的方式为图像2 – curious 2012-08-18 15:00:11

1

今天我学到了一些新东西。凭借Tesseract 3.01,看起来最简单的方法就是让OCR工作成为首先deskew的文字。

这是一个非常简单的命令,刚刚剪的形象和作物有点,但不会做任何对比度或颜色改变操作原文:

convert 15071917.jpg \ 
     -background pink \ 
     -shear -0x6  \ 
     -crop 350x80+0+24 \ 
     tesco.jpg  \ 
    &&     \ 
    tesseract tesco.jpg a && cat a.txt 

    Tesseract Open Source OCR Engine v3.01 with Leptonica 
    TESCO