我有一组在我运行OCR应用程序图像。这个过程产生一个包含字符偏移量的XML文件。然后,我使用Acrobat 9,现在的图像转换为PDF格式,我想对XML文件的信息为不可见的文本图层添加到PDF,以实现搜索的PDF。有一种简单而自由的方式吗?如何将外部OCR嵌入到现有PDF中?
一些细节:
我不想使用Acrobat的OCR功能;
OCR处理结果,其中包含类似元件XML文件:
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>
更新:有可能做什么,我想以不同的方式。假设已经有一组PDF文件由一组图像生成,并且已经包含OCR文本。有没有可能来(也许编程)访问的每个页面的只是图像,并处理(例如,将其转换为单色),并保存回PDF文件?如果是,那么OCR文本不会丢失。
[我应该把这个更新到一个单独的问题吗?]
您可能会发现[hocr2pdf(http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/)有用 – 2014-10-07 08:06:03