2009-09-28 68 views
6

我有一组在我运行OCR应用程序图像。这个过程产生一个包含字符偏移量的XML文件。然后,我使用Acrobat 9,现在的图像转换为PDF格式,我想对XML文件的信息为不可见的文本图层添加到PDF,以实现搜索的PDF。有一种简单而自由的方式吗?如何将外部OCR嵌入到现有PDF中?

一些细节:

  • 我不想使用Acrobat的OCR功能;

  • OCR处理结果,其中包含类似元件XML文件:

    <line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

更新:有可能做什么,我想以不同的方式。假设已经有一组PDF文件由一组图像生成,并且已经包含OCR文本。有没有可能来(也许编程)访问的每个页面的只是图像,并处理(例如,将其转换为单色),并保存回PDF文件?如果是,那么OCR文本不会丢失。

[我应该把这个更新到一个单独的问题吗?]

+0

您可能会发现[hocr2pdf(http://www.exactcode.com/site/open_source/exactimage/hocr2pdf/)有用 – 2014-10-07 08:06:03

回答

1

有关处理PDF文件不失隐藏层的后续问题:我相信Ghostscript是能够做到这一点。例如,下面的命令应在PDF转换为灰度:

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf 
+0

不错,它的工作。但是产出并不像我想要的那样干净。如果ImageMagick的可以在PDF转换不失文字层,我想的东西,如处理每个页面: 转换\\(-white阈值50%\\)-monochrome ... 也许有告诉的方式IM如何使用GS,就像DaveParillo说的那样。我稍后会检查。 – kepler 2009-10-06 13:03:33

-1

如果你想要做的就是将现有的PDF灰度图,尝试Imagemagick

convert foo.pdf -colorspace Gray -compress zip gray.pdf 

我不认为这会改变你的PDF中的任何其他属性。

+0

这不似乎保留PDF中的隐藏文字层。 (试图与ImageMagick的6.4.5。) – 2009-10-05 22:00:18

+0

奇怪,因为ImageMagick的使用ghostscript的做它的形象转换...... – DaveParillo 2009-10-06 01:18:12

+0

我也试了一下,同时也失去了文字层。我也使用ImageMagick 6.4.5。 – kepler 2009-10-06 12:53:40

相关问题