我正在寻找一种方法在图像中查找已知文本。在图像中查找已知文本(向导OCR)
具体来说,我试图创建一个工具将一组扫描页面转换为支持搜索和复制粘贴的PDF文件。我明白这通常是如何实现的:OCR页面,保留文本的位置,然后将文本作为不可见图层添加到PDF中。 Acrobat内置此功能,并且tesseract可以输出hOCR文件(包含识别的文本及其位置),hocr2pdf可以使用这些文件生成文本图层。
不幸的是,我的源图像质量相当差(最多150 DPI,有大量的JPEG文物,以及一些文本背后的非纯色背景),导致OCR结果相当差。但是,我确实有每个页面上显示的文本副本(无图片和布局)。
将已知文本与其在扫描页面上的位置进行匹配似乎会更容易做到准确,但我未能发现任何内置此功能的软件。我如何利用现有软件来做到这一点?
编辑:文本的大小和字体各不相同,但它们的段落是一致的。
你能发布一个或两个样本吗?你知道字体样式和大小的细节吗?这些在整个文件中是不变的? – 2015-02-23 23:02:47
您是否要求提供可为您做到这一点的工具/软件? – kkuilla 2015-02-24 09:49:40
@MarkSetchell我无法发布确切的文档,但我会看看是否可以生成可比较的质量样本。 – rkjnsn 2015-02-25 04:13:34