Enhancing dynamic range and normalizing illumination
要点是第一正常化背景无缝颜色。有很多方法可以做到这一点。以下是我为您的图像所尝试的内容:
为图像创建纸张/墨水单元表(与链接答案中的方式相同)。所以你选择足够大的网格单元来清楚背景中的字符特征。对于您的图像,我选择8x8像素。因此,将图像分成正方形并计算每种颜色的平均颜色和绝对差。然后标记饱和度(小绝对差),并将其设置为纸张或墨水单元,与整幅图像平均颜色相比,根据平均颜色。
现在只需处理图像的所有行,并为每个像素获取左右纸盒。并在这些值之间进行线性插值。这应该会引导您使用该像素的实际背景颜色,所以只需从图像中减去它。
我给这家C++实现看起来是这样的:
color picture::normalize(int sz,bool _recolor,bool _sbstract)
{
struct _cell { color col; int a[4],da,_paper; _cell(){}; _cell(_cell& x){ *this=x; }; ~_cell(){}; _cell* operator = (const _cell *x) { *this=*x; return this; }; /*_cell* operator = (const _cell &x) { ...copy... return this; };*/ };
int i,x,y,tx,ty,txs,tys,a0[4],a1[4],n,dmax;
int x0,x1,y0,y1,q[4][4][2],qx[4],qy[4];
color c;
_cell **tab;
// allocate grid table
txs=xs/sz; tys=ys/sz; n=sz*sz; c.dd=0;
if ((txs<2)||(tys<2)) return c;
tab=new _cell*[tys]; for (ty=0;ty<tys;ty++) tab[ty]=new _cell[txs];
// compute grid table
for (y0=0,y1=sz,ty=0;ty<tys;ty++,y0=y1,y1+=sz)
for (x0=0,x1=sz,tx=0;tx<txs;tx++,x0=x1,x1+=sz)
{
for (i=0;i<4;i++) a0[i]=0;
for (y=y0;y<y1;y++)
for (x=x0;x<x1;x++)
{
dec_color(a1,p[y][x],pf);
for (i=0;i<4;i++) a0[i]+=a1[i];
}
for (i=0;i<4;i++) tab[ty][tx].a[i]=a0[i]/n;
enc_color(tab[ty][tx].a,tab[ty][tx].col,pf);
tab[ty][tx].da=0;
for (i=0;i<4;i++) a0[i]=tab[ty][tx].a[i];
for (y=y0;y<y1;y++)
for (x=x0;x<x1;x++)
{
dec_color(a1,p[y][x],pf);
for (i=0;i<4;i++) tab[ty][tx].da+=abs(a1[i]-a0[i]);
}
tab[ty][tx].da/=n;
}
// compute max safe delta dmax = avg(delta)
for (dmax=0,ty=0;ty<tys;ty++)
for (tx=0;tx<txs;tx++)
dmax+=tab[ty][tx].da;
dmax/=(txs*tys);
// select paper cells and compute avg paper color
for (i=0;i<4;i++) a0[i]=0; x0=0;
for (ty=0;ty<tys;ty++)
for (tx=0;tx<txs;tx++)
if (tab[ty][tx].da<=dmax)
{
tab[ty][tx]._paper=1;
for (i=0;i<4;i++) a0[i]+=tab[ty][tx].a[i]; x0++;
}
else tab[ty][tx]._paper=0;
if (x0) for (i=0;i<4;i++) a0[i]/=x0;
enc_color(a0,c,pf);
// remove saturated ink cells from paper (small .da but wrong .a[])
for (ty=1;ty<tys-1;ty++)
for (tx=1;tx<txs-1;tx++)
if (tab[ty][tx]._paper==1)
if ((tab[ty][tx-1]._paper==0)
||(tab[ty][tx+1]._paper==0)
||(tab[ty-1][tx]._paper==0)
||(tab[ty+1][tx]._paper==0))
{
x=0; for (i=0;i<4;i++) x+=abs(tab[ty][tx].a[i]-a0[i]);
if (x>dmax) tab[ty][tx]._paper=2;
}
for (ty=0;ty<tys;ty++)
for (tx=0;tx<txs;tx++)
if (tab[ty][tx]._paper==2)
tab[ty][tx]._paper=0;
// piecewise linear interpolation H-lines
int ty0,ty1,tx0,tx1,d;
if (_sbstract) for (i=0;i<4;i++) a0[i]=0;
for (y=0;y<ys;y++)
{
ty=y/sz; if (ty>=tys) ty=tys-1;
// first paper cell
for (tx=0;(tx<txs)&&(!tab[ty][tx]._paper);tx++); tx1=tx;
if (tx>=txs) continue; // no paper cell found
for (;tx<txs;)
{
// fnext paper cell
for (tx++;(tx<txs)&&(!tab[ty][tx]._paper);tx++);
if (tx<txs)
{
tx0=tx1; x0=tx0*sz;
tx1=tx; x1=tx1*sz;
d=x1-x0;
}
else x1=xs;
// interpolate
for (x=x0;x<x1;x++)
{
dec_color(a1,p[y][x],pf);
for (i=0;i<4;i++) a1[i]-=tab[ty][tx0].a[i]+(((tab[ty][tx1].a[i]-tab[ty][tx0].a[i])*(x-x0))/d)-a0[i];
if (pf==_pf_s ) for (i=0;i<1;i++) clamp_s32(a1[i]);
if (pf==_pf_u ) for (i=0;i<1;i++) clamp_u32(a1[i]);
if (pf==_pf_ss ) for (i=0;i<2;i++) clamp_s16(a1[i]);
if (pf==_pf_uu ) for (i=0;i<2;i++) clamp_u16(a1[i]);
if (pf==_pf_rgba) for (i=0;i<4;i++) clamp_u8 (a1[i]);
enc_color(a1,p[y][x],pf);
}
}
}
// recolor paper cells with avg color (remove noise)
if (_recolor)
for (y0=0,y1=sz,ty=0;ty<tys;ty++,y0=y1,y1+=sz)
for (x0=0,x1=sz,tx=0;tx<txs;tx++,x0=x1,x1+=sz)
if (tab[ty][tx]._paper)
for (y=y0;y<y1;y++)
for (x=x0;x<x1;x++)
p[y][x]=c;
// free grid table
for (ty=0;ty<tys;ty++) delete[] tab[ty]; delete[] tab;
return c;
}
见链接的回答更多的细节。切换到灰度<0,765>
和使用pic1.normalize(8,false,true);
二值化
我第一次尝试幼稚简单范围tresholding后这里导致您的输入图像,所以如果所有色彩通道值(R,G ,B)在范围<min,max>
它被重新着色到c1
别的c0
:
void picture::treshold_AND(int min,int max,int c0,int c1) // all channels tresholding: c1 <min,max>, c0 (-inf,min)+(max,+inf)
{
int x,y,i,a[4],e;
for (y=0;y<ys;y++)
for (x=0;x<xs;x++)
{
dec_color(a,p[y][x],pf);
for (e=1,i=0;i<3;i++) if ((a[i]<min)||(a[i]>max)){ e=0; break; }
if (e) for (i=0;i<4;i++) a[i]=c1;
else for (i=0;i<4;i++) a[i]=c0;
enc_color(a,p[y][x],pf);
}
}
应用pic1.treshold_AND(0,127,765,0);
和转换回RGBA后,我得到了这样的结果:
灰色的噪声是由于JPEG压缩(PNG会过大)。正如你所看到的结果或多或少是可以接受的。
如果这还不够,你可以将你的图片分成几部分。计算每个片段的直方图(它应该是双峰),然后找到2个最大值之间的颜色,这是您的阈值。问题是,背景涵盖更多领域,因此油墨的峰值比较小,有时很难在直线秤当场看到完整的图像直方图:
当你这样做的每段这将是更更好(因为在阈值周围会有更少的背景/文字颜色流血),所以间隙会更加明显。此外,不要忘记忽略小间隙(缺失直方图中的垂直线),因为它们仅与量化/编码/舍入(图像中不存在所有灰度)有关,所以您应该滤除小于然后少量强度的间隔他们与最后和下一个有效直方图条目的平均值。
我会试试这个 - 没有找到一种方法将此添加到我的obj-C项目,但会做研究,看看我可以如何添加一个方法到图片对象。 – Xav
图片只是一个垫? – Xav
@Xav如果你使用第3方图像库,直接混淆它不是一个好主意。你可以在图像类之外编写自定义函数,改变这些图像作为操作数。是的,我的图像是二维数组/像素矩阵,其中像素为32位无符号整数('DWORD'),支持编码_pf_rgba(4x8bit uint),_ pf_u(1x32bit uint),_pf_s(1x32bit int)以及更多'dec_color/enc_color'只需在每个通道的基础上将其打包/打包到DWORD [4]'阵列,以使代码具有任何像素格式的通用性。因为只有灰度,你可以忽略所有这些。 – Spektre