2012-04-02 58 views
4

我正在研究当前使用.tiff的项目,将定义的模板文档与所讨论的文档进行比较。由于各种原因,我们正在离开.tiff格式,但主要是因为新文件将采用PDF格式。.Net Tool或Library将一个PDF与另一个PDF进行比较

我看到两个可能的解决方案。首先将PDF转换为TIFF并使用现有的代码。

或者,使用PDF库将模板PDF与接收到的PDF进行比较。

由于收到的PDF基本上来自外部来源,因此我们无法确定它是基于文本还是基于图像,因此库或工具必须能够比较两者。

任何有关工具/库的建议你会发现很有用!

预先感谢您!

DJ

+0

你想*可视*比较2个PDF,而不是*结构*,对吗? – 2012-08-02 10:21:44

回答

1

我们最终做的是使用Aspose.Pdf库。

我结束了学习有两种类型的PDF:

  • 基于图像和
  • 基于文本的

我没有比较的基于文本的PDF文件的任何问题。但是,在收到基于图像的PDF时,将PDF转换为.tiff,以便我们可以使用Microsoft的MODI将PDF与我们指定的模板进行比较。 .tiff将是一个空白图像,而不是PDF的实际内容。 Aspose.PDF库确实需要花费一些钱,但最终,图书馆完全符合我们的需求,并使我们能够满足客户的需求。

0

我觉得你比较TIFF格式的方法是要走的路,使用ImageMagick或其他图书馆? 将PDF转换为图像也可以通过ImageMagick在Ghostscript的帮助下完成。

http://www.imagemagick.org/script/compare.php

我有GhostScript的一个C#包装,可以帮助,给我发了一个邮件(在个人资料),我可以将它发送给你。

+0

谢谢马克的回复! – dj22 2012-04-04 14:24:10

2

i-net PDFC怎么样 - 它做了一个完整的内容比较 - 文本,图像,行,页眉/页脚检测等。您可以通过命令行或者使用GUI(2.0,目前处于公共beta阶段)或者通过API(我认为我们的内部版本是.NET库)来使用它。

声明:是的,我为做这个的公司工作 - 所以反馈高度赞赏。

0

据我可以从你的问题看,你想视觉比较2个PDF文件,而不是结构比较。 (因为我可以创建你一千个不同的PDF页面,都会有不同的内部结构和PDF的源代码,但同样呈现在屏幕上或纸上。)

在这种情况下任何比较软件将不得不改变将2张PDF转换成光栅图像并进行比较。

但是既然您已经有了自己的代码来做TIFF,那么您可以重新使用它来转换为TIFF格式的PDF文件(就像您正在考虑的那样)。

除非您发现另一个比您自己的解决方案更好,更快,更精确,更时髦,更少资源的外部工具! - 但是,在开始真正的视觉比较之前,不能避免将PDF页面转换为某种光栅图像。 (这可能发生在内部并且对用户来说不明显,但它将不得不发生...)

相关问题