如何将外部OCR嵌入到现有PDF中？

我有一组在我运行OCR应用程序图像。这个过程产生一个包含字符偏移量的XML文件。然后，我使用Acrobat 9，现在的图像转换为PDF格式，我想对XML文件的信息为不可见的文本图层添加到PDF，以实现搜索的PDF。有一种简单而自由的方式吗？如何将外部OCR嵌入到现有PDF中？

一些细节：

我不想使用Acrobat的OCR功能;
OCR处理结果，其中包含类似元件XML文件：

<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

更新：有可能做什么，我想以不同的方式。假设已经有一组PDF文件由一组图像生成，并且已经包含OCR文本。有没有可能来（也许编程）访问的每个页面的只是图像，并处理（例如，将其转换为单色），并保存回PDF文件？如果是，那么OCR文本不会丢失。

[我应该把这个更新到一个单独的问题吗？]

来源

2009-09-28 kepler

您可能会发现[hocr2pdf（http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/）有用 – 2014-10-07 08:06:03

有关处理PDF文件不失隐藏层的后续问题：我相信Ghostscript是能够做到这一点。例如，下面的命令应在PDF转换为灰度：

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf

来源

2009-10-05 22:28:48

不错，它的工作。但是产出并不像我想要的那样干净。如果ImageMagick的可以在PDF转换不失文字层，我想的东西，如处理每个页面：转换\\（-white阈值50％\\）-monochrome ... 也许有告诉的方式IM如何使用GS，就像DaveParillo说的那样。我稍后会检查。 – kepler 2009-10-06 13:03:33

-1

如果你想要做的就是将现有的PDF灰度图，尝试Imagemagick：

convert foo.pdf -colorspace Gray -compress zip gray.pdf

我不认为这会改变你的PDF中的任何其他属性。

来源

2009-10-01 16:15:14 DaveParillo

这不似乎保留PDF中的隐藏文字层。（试图与ImageMagick的6.4.5。） – 2009-10-05 22:00:18

奇怪，因为ImageMagick的使用ghostscript的做它的形象转换...... – DaveParillo 2009-10-06 01:18:12

我也试了一下，同时也失去了文字层。我也使用ImageMagick 6.4.5。 – kepler 2009-10-06 12:53:40

如何将外部OCR嵌入到现有PDF中？

回答

相关问题