2011-01-05 168 views
1

假设你有一个像下面的图片:OCR结合字体识别?

alt text

你将如何建立一个服务来分析该图像和处理的几秒钟,显示对应于每个文本区域可编辑区域中的文件:

alt text

(该矩形是为了显示每个可编辑区域的边界。)

该软件将需要多种技术结合:

  • 字体检测(最接近的匹配)
  • 文本样式确定(字体大小,字体重量,行高,字母间距,字体 - 的CSS当量变体,文本修饰等)

从这里,用户将能够编辑每个框中的文本来修改文档。

回答

1

这是常见的OCR引擎通常所做的事情。看看ABBYY FineReader时,OMNIPAGE,楔形文字,谷歌Tessetact,Expervision等等

这并不容易,因为它看起来就像许多商业OCR引擎仍然做出愚蠢的错误,最引擎已经花费数年时间来开发。

查找段落边界框的问题是OCR过程的一部分。在你的情况下,段落分区很简单,但想起报纸或杂志的页面,工作变得更加困难。

背景保存的问题同样困难。简单的单色背景很容易删除,但添加一些更复杂的东西,并很快变得困难。

将所有三个问题结合在一起在同一个图像,它变得更加困难。添加一些线条和框,灰度阴影,半色调,旋转字体,淡入淡出和其他特殊效果,OCR几乎变得不可能。许多OCR引擎在具有明确定义的文本的简单页面上100%准确,但是当您开始为文档添加更多复杂性时,阅读速度开始快速下降。一些OCR引擎比其他引擎更好。

-1

如果你想有一个免费的图书馆要做到这一点,使用正方体。它会返回边界框和一些其他功能以及OCR文本。

至于字体,我不确定是否可以在tesseract中访问它的相关信息,但是如果没有,只要有文本和图片,就很容易找到与现有字体最接近的匹配。