假设你有一个像下面的图片:OCR结合字体识别?
你将如何建立一个服务来分析该图像和处理的几秒钟,显示对应于每个文本区域可编辑区域中的文件:
(该矩形是为了显示每个可编辑区域的边界。)
该软件将需要多种技术结合:
- 字体检测(最接近的匹配)
- 文本样式确定(字体大小,字体重量,行高,字母间距,字体 - 的CSS当量变体,文本修饰等)
从这里,用户将能够编辑每个框中的文本来修改文档。
假设你有一个像下面的图片:OCR结合字体识别?
你将如何建立一个服务来分析该图像和处理的几秒钟,显示对应于每个文本区域可编辑区域中的文件:
(该矩形是为了显示每个可编辑区域的边界。)
该软件将需要多种技术结合:
从这里,用户将能够编辑每个框中的文本来修改文档。
这是常见的OCR引擎通常所做的事情。看看ABBYY FineReader时,OMNIPAGE,楔形文字,谷歌Tessetact,Expervision等等
这并不容易,因为它看起来就像许多商业OCR引擎仍然做出愚蠢的错误,最引擎已经花费数年时间来开发。
查找段落边界框的问题是OCR过程的一部分。在你的情况下,段落分区很简单,但想起报纸或杂志的页面,工作变得更加困难。
背景保存的问题同样困难。简单的单色背景很容易删除,但添加一些更复杂的东西,并很快变得困难。
将所有三个问题结合在一起在同一个图像,它变得更加困难。添加一些线条和框,灰度阴影,半色调,旋转字体,淡入淡出和其他特殊效果,OCR几乎变得不可能。许多OCR引擎在具有明确定义的文本的简单页面上100%准确,但是当您开始为文档添加更多复杂性时,阅读速度开始快速下降。一些OCR引擎比其他引擎更好。
如果你想有一个免费的图书馆要做到这一点,使用正方体。它会返回边界框和一些其他功能以及OCR文本。
至于字体,我不确定是否可以在tesseract中访问它的相关信息,但是如果没有,只要有文本和图片,就很容易找到与现有字体最接近的匹配。