2009-05-20 54 views
6

有谁知道开源的Java库会对pdf文件的文本部分进行可靠的区分吗?Java Pdf差异库

理想情况下,我想要一些会产生补丁形式的差异。

+0

也许你可以澄清你的期望。有很多方法可以创建两个完全相同的不同PDF。另请注意,PDF不必具有可搜索的文本。 – 2009-05-20 10:37:24

回答

0

如果PDF仅在文本中有所不同,也可以对页面进行栅格化,然后查看差异 - 我们将其用于PDF代码上的回归测试输出。

+0

是否有任何用于栅格化PDF文件的库或代码?同样在光栅化上,MD5/SHA1散列的结果总是相同的?或者你将不得不使用像Sikuli等模糊比较工具来进行区分? – David 2013-01-05 01:25:58

+0

刚刚注意到,Apache PDFBox可以通过页面将PDF栅格化为图像。 – David 2013-01-17 05:27:06

0

您可以看看xdiffweb.com。这是一个基于apache pdfbox的纯java开源项目。