我有55000图像文件(在JPG和TIFF格式),这是图书从图书。图像处理/超级光OCR
每个页面的结构是这样的:
一些文本
---(水平线)---
若干
一些文本
---(水平线)---
另一个号码
一些文本
可以有从零到4的水平线任何给定网页上。
我需要找到数字是什么,就在水平线的下方。
但是,数字严格遵循对方,从第一页开始,所以为了找到数字,我不需要读它:我可以检测到水平线的存在,这应该是两个比尝试对页面进行OCR以检测数字更容易和更安全。
算法是,基本上是:
for each image
count horizontal lines
print image name, number of horizontal lines
next image
的问题是:什么是最好的图片库/语言做了“算水平线”的一部分?
为什么当他需要计算线路时,他需要OCR? – 2009-08-07 11:05:09
问题是如何解决这个问题没有OCR – Ivan 2009-08-07 11:10:19
@kigurai @Ivan如果做OCR是微不足道的,为什么不。他假设有一种方法“与尝试OCR检测数字的页面相比,这应该既简单又安全。” – pageman 2009-08-07 14:32:08