2016-08-30 214 views
2

我试图为OCR准备图像,至今这里是我一直在使用信息完成从Extracting text OpenCVOpenCV进行OCR:如何计算阈值水平为灰度图像OCR

从得到的图像我使用已过滤的轮廓,使口罩如下:

//this is the mask of all the text 
Mat maskF = Mat::zeros(rgb.rows, rgb.cols, CV_8UC1); 
// CV_FILLED fills the connected components found - CV_FILLED to fill 
drawContours(maskF, letters, -1, Scalar(255), CV_FILLED); 
cv::imwrite("noise2-Mask.png", maskF); 

所产生的IMG是有希望的:enter image description here

考虑,这是我原来的IMG:enter image description here

不幸的是,在它上面运行Tesseract会产生一些问题,我认为你在词语上的字母之间看到的灰色级别混淆了tesseract - 所以,你在考虑耶,让我们做一个二元变换,好吧,只是错过了下半部分页面,所以我尝试应用大津阈值以及文本变得像素化和字符失去其形状。

我试图从CalcBlockMeanVariance但OpenCV Adaptive Threshold OCR无法得到它来编译(而且我不能肯定我明白这一切TBH)上

res=1.0-res; 
res=Img+res; 

总之编译扼流圈,如果任何人有任何建议,我会感激它!请注意,Tesseract很少识别这些分数,但是我正在编写一个新的训练集,希望能够提高回复率)

回答

0

您可以尝试清除所有带有侵蚀的文本,然后从灰度图像中减去结果或者使用tophat变换代替全局阈值的背景! Here你可以找到一个示例代码!为什么不使用现有的adaptiveThreshold功能?

2
  1. Enhancing dynamic range and normalizing illumination

    要点是第一正常化背景无缝颜色。有很多方法可以做到这一点。以下是我为您的图像所尝试的内容:

    为图像创建纸张/墨水单元表(与链接答案中的方式相同)。所以你选择足够大的网格单元来清楚背景中的字符特征。对于您的图像,我选择8x8像素。因此,将图像分成正方形并计算每种颜色的平均颜色和绝对差。然后标记饱和度(小绝对差),并将其设置为纸张或墨水单元,与整幅图像平均颜色相比,根据平均颜色。

    现在只需处理图像的所有行,并为每个像素获取左右纸盒。并在这些值之间进行线性插值。这应该会引导您使用该像素的实际背景颜色,所以只需从图像中减去它。

    我给这家C++实现看起来是这样的:

    color picture::normalize(int sz,bool _recolor,bool _sbstract) 
        { 
        struct _cell { color col; int a[4],da,_paper; _cell(){}; _cell(_cell& x){ *this=x; }; ~_cell(){}; _cell* operator = (const _cell *x) { *this=*x; return this; }; /*_cell* operator = (const _cell &x) { ...copy... return this; };*/ }; 
        int i,x,y,tx,ty,txs,tys,a0[4],a1[4],n,dmax; 
        int x0,x1,y0,y1,q[4][4][2],qx[4],qy[4]; 
        color c; 
        _cell **tab; 
        // allocate grid table 
        txs=xs/sz; tys=ys/sz; n=sz*sz; c.dd=0; 
        if ((txs<2)||(tys<2)) return c; 
        tab=new _cell*[tys]; for (ty=0;ty<tys;ty++) tab[ty]=new _cell[txs]; 
        // compute grid table 
        for (y0=0,y1=sz,ty=0;ty<tys;ty++,y0=y1,y1+=sz) 
        for (x0=0,x1=sz,tx=0;tx<txs;tx++,x0=x1,x1+=sz) 
         { 
         for (i=0;i<4;i++) a0[i]=0; 
         for (y=y0;y<y1;y++) 
         for (x=x0;x<x1;x++) 
          { 
          dec_color(a1,p[y][x],pf); 
          for (i=0;i<4;i++) a0[i]+=a1[i]; 
          } 
         for (i=0;i<4;i++) tab[ty][tx].a[i]=a0[i]/n; 
         enc_color(tab[ty][tx].a,tab[ty][tx].col,pf); 
    
         tab[ty][tx].da=0; 
         for (i=0;i<4;i++) a0[i]=tab[ty][tx].a[i]; 
         for (y=y0;y<y1;y++) 
         for (x=x0;x<x1;x++) 
          { 
          dec_color(a1,p[y][x],pf); 
          for (i=0;i<4;i++) tab[ty][tx].da+=abs(a1[i]-a0[i]); 
          } 
         tab[ty][tx].da/=n; 
         } 
        // compute max safe delta dmax = avg(delta) 
        for (dmax=0,ty=0;ty<tys;ty++) 
        for (tx=0;tx<txs;tx++) 
         dmax+=tab[ty][tx].da; 
         dmax/=(txs*tys); 
    
        // select paper cells and compute avg paper color 
        for (i=0;i<4;i++) a0[i]=0; x0=0; 
        for (ty=0;ty<tys;ty++) 
        for (tx=0;tx<txs;tx++) 
         if (tab[ty][tx].da<=dmax) 
         { 
         tab[ty][tx]._paper=1; 
         for (i=0;i<4;i++) a0[i]+=tab[ty][tx].a[i]; x0++; 
         } 
         else tab[ty][tx]._paper=0; 
        if (x0) for (i=0;i<4;i++) a0[i]/=x0; 
        enc_color(a0,c,pf); 
        // remove saturated ink cells from paper (small .da but wrong .a[]) 
        for (ty=1;ty<tys-1;ty++) 
        for (tx=1;tx<txs-1;tx++) 
         if (tab[ty][tx]._paper==1) 
         if ((tab[ty][tx-1]._paper==0) 
         ||(tab[ty][tx+1]._paper==0) 
         ||(tab[ty-1][tx]._paper==0) 
         ||(tab[ty+1][tx]._paper==0)) 
         { 
         x=0; for (i=0;i<4;i++) x+=abs(tab[ty][tx].a[i]-a0[i]); 
         if (x>dmax) tab[ty][tx]._paper=2; 
         } 
        for (ty=0;ty<tys;ty++) 
        for (tx=0;tx<txs;tx++) 
         if (tab[ty][tx]._paper==2) 
         tab[ty][tx]._paper=0; 
    
        // piecewise linear interpolation H-lines 
        int ty0,ty1,tx0,tx1,d; 
        if (_sbstract) for (i=0;i<4;i++) a0[i]=0; 
        for (y=0;y<ys;y++) 
         { 
         ty=y/sz; if (ty>=tys) ty=tys-1; 
         // first paper cell 
         for (tx=0;(tx<txs)&&(!tab[ty][tx]._paper);tx++); tx1=tx; 
         if (tx>=txs) continue; // no paper cell found 
         for (;tx<txs;) 
          { 
          // fnext paper cell 
          for (tx++;(tx<txs)&&(!tab[ty][tx]._paper);tx++); 
          if (tx<txs) 
           { 
           tx0=tx1; x0=tx0*sz; 
           tx1=tx; x1=tx1*sz; 
           d=x1-x0; 
           } 
          else x1=xs; 
    
          // interpolate 
          for (x=x0;x<x1;x++) 
           { 
           dec_color(a1,p[y][x],pf); 
           for (i=0;i<4;i++) a1[i]-=tab[ty][tx0].a[i]+(((tab[ty][tx1].a[i]-tab[ty][tx0].a[i])*(x-x0))/d)-a0[i]; 
           if (pf==_pf_s ) for (i=0;i<1;i++) clamp_s32(a1[i]); 
           if (pf==_pf_u ) for (i=0;i<1;i++) clamp_u32(a1[i]); 
           if (pf==_pf_ss ) for (i=0;i<2;i++) clamp_s16(a1[i]); 
           if (pf==_pf_uu ) for (i=0;i<2;i++) clamp_u16(a1[i]); 
           if (pf==_pf_rgba) for (i=0;i<4;i++) clamp_u8 (a1[i]); 
           enc_color(a1,p[y][x],pf); 
           } 
          } 
         } 
    
        // recolor paper cells with avg color (remove noise) 
        if (_recolor) 
        for (y0=0,y1=sz,ty=0;ty<tys;ty++,y0=y1,y1+=sz) 
         for (x0=0,x1=sz,tx=0;tx<txs;tx++,x0=x1,x1+=sz) 
         if (tab[ty][tx]._paper) 
         for (y=y0;y<y1;y++) 
         for (x=x0;x<x1;x++) 
          p[y][x]=c; 
    
        // free grid table 
        for (ty=0;ty<tys;ty++) delete[] tab[ty]; delete[] tab; 
        return c; 
        } 
    

    见链接的回答更多的细节。切换到灰度<0,765>和使用pic1.normalize(8,false,true);

    normalize

  2. 二值化

    我第一次尝试幼稚简单范围tresholding后这里导致您的输入图像,所以如果所有色彩通道值(R,G ,B)在范围<min,max>它被重新着色到c1别的c0

    void picture::treshold_AND(int min,int max,int c0,int c1) // all channels tresholding: c1 <min,max>, c0 (-inf,min)+(max,+inf) 
        { 
        int x,y,i,a[4],e; 
        for (y=0;y<ys;y++) 
        for (x=0;x<xs;x++) 
         { 
         dec_color(a,p[y][x],pf); 
         for (e=1,i=0;i<3;i++) if ((a[i]<min)||(a[i]>max)){ e=0; break; } 
         if (e) for (i=0;i<4;i++) a[i]=c1; 
         else for (i=0;i<4;i++) a[i]=c0; 
         enc_color(a,p[y][x],pf); 
         } 
        } 
    

    应用pic1.treshold_AND(0,127,765,0);和转换回RGBA后,我得到了这样的结果:

    binarise

    灰色的噪声是由于JPEG压缩(PNG会过大)。正如你所看到的结果或多或少是可以接受的。

    如果这还不够,你可以将你的图片分成几部分。计算每个片段的直方图(它应该是双峰),然后找到2个最大值之间的颜色,这是您的阈值。问题是,背景涵盖更多领域,因此油墨的峰值比较小,有时很难在直线秤当场看到完整的图像直方图:

    bimodal histogram

    当你这样做的每段这将是更更好(因为在阈值周围会有更少的背景/文字颜色流血),所以间隙会更加明显。此外,不要忘记忽略小间隙(缺失直方图中的垂直线),因为它们仅与量化/编码/舍入(图像中不存在所有灰度)有关,所以您应该滤除小于然后少量强度的间隔他们与最后和下一个有效直方图条目的平均值。

+0

我会试试这个 - 没有找到一种方法将此添加到我的obj-C项目,但会做研究,看看我可以如何添加一个方法到图片对象。 – Xav

+0

图片只是一个垫? – Xav

+0

@Xav如果你使用第3方图像库,直接混淆它不是一个好主意。你可以在图像类之外编写自定义函数,改变这些图像作为操作数。是的,我的图像是二维数组/像素矩阵,其中像素为32位无符号整数('DWORD'),支持编码_pf_rgba(4x8bit uint),_ pf_u(1x32bit uint),_pf_s(1x32bit int)以及更多'dec_color/enc_color'只需在每个通道的基础上将其打包/打包到DWORD [4]'阵列,以使代码具有任何像素格式的通用性。因为只有灰度,你可以忽略所有这些。 – Spektre