如何获得Python中的两个PDF文件的差异？

pyPdf在我的测试中不是很健壮。它在由Illustrator/InDesign和其他矢量绘图程序创建的pdf上崩溃。不过，对于来自Office应用程序的简单PDF文件可能没问题。另一个更可靠的选择是来自xpdf工具包的pdftotext。 – fbuchinger 2009-08-21 09:34:49

我不知道你的使用情况，但对于脚本生成的PDF使用ReportLab的回归测试，我通过

转换做差异PDF文件每一页的图像使用ghostsript
版本比较针对标准的PDF的页面图像的各页，使用PIL

例如

im1 = Image.open(imagePath1) 
im2 = Image.open(imagePath2) 

imDiff = ImageChops.difference(im1, im2)

这适用于标记由于代码更改而引入的任何更改。

来源

2009-08-21 10:17:24

第1步是否有一些参考？ – yucer 2016-09-09 07:12:34

在我的加密的pdf unittest上遇到了同样的问题，pdfminer和pyPdf都不适合我。

这里有两个命令（pdftocairo，pdftotext）在我的测试中很完美。（Ubuntu的安装：apt-get的安装poppler的-utils的）

你可以通过PDF内容：

from subprocess import Popen, PIPE 

def get_formatted_content(pdf_content): 
    cmd = 'pdftocairo -pdf - -' # you can replace "pdftocairo -pdf" with "pdftotext" if you want to get diff info 
    ps = Popen(cmd, shell=True, stdin=PIPE, stdout=PIPE, stderr=PIPE) 
    stdout, stderr = ps.communicate(input=pdf_content) 
    if ps.returncode != 0: 
     raise OSError(ps.returncode, cmd, stderr) 
    return stdout

好像pdftocairo可以重绘PDF文件，pdftotext可以提取所有文本。

然后你就可以比较两个PDF文件：

c1 = get_formatted_content(open('f1.pdf').read()) 
c2 = get_formatted_content(open('f2.pdf').read()) 
print(cmp(c1, c2)) # for binary compare 
# import difflib 
# print(list(difflib.unified_diff(c1, c2))) # for text compare

来源

2014-02-11 03:14:26 gzerone

如何获得Python中的两个PDF文件的差异？

回答

相关问题