2012-04-10 60 views
1

我想要在很多扫描书籍(即波斯语(阿拉伯文脚本))中获取每个单词的小图像。 我没有图像优势的实验。
我怎样才能以最有效的方式做到这一点?从扫描的纸张中提取单词图像

回答

3

我建议你在MATLAB中编写一个脚本,就像这样。
一个:半字母之间的最大距离(以像素为单位)
B:一半的字之间的最小距离(以像素为单位)
(让希望一个< B)

阈值的扫描。页面的图像。

I(I < Th) = 0;I(I > Th) = 1; 

通过试验选择'Th'。你应该得到一个二进制图像'我'有字母是1。 扩大图像。

imdilate(I,a); 

这会将字母连接在一起。
消除噪音。

I = bwareaopen(I,n); 

这将删除n个像素以下的所有连接组件。
做连接组件分析。

CC = bwconncomp(I); 
Rect = regionprops(I,'BoundingBox'); 

这将返回一个包含单个单词的矩形的坐标列表。 从原始副本中提取子矩阵并使用imwrite()写入图像。