2012-04-07 75 views
0

我有一个pdf的库(大多数都有一些随机压缩的东西,也是djvu的)。其中一些pdf已经损坏,应该删除。Python的PDF完整性检查

是否有无论如何我可以做Python的PDF完整性检查?

回答

2

你可以pyPDF阅读PDF和声明它无效的,如果读取过程给你一个错误......像这样,

from pyPdf import PdfFileReader 
try : 
    mypdf = PdfFileReader(file('filename', 'rb')) 
except: 
    print filename,' is invalid pdf' 
+0

确定。我现在正在尝试,但我想知道是否有其他方式。另外,我假设pdf数据的散列是唯一的是的? (假设没有碰撞) – 2012-04-07 14:22:06

+0

是的,PDF散列应该是唯一的。但是PyPDF不会打开很多PDF文件,但大多数PDF阅读器最多只能提供一份可能的删除候选清单。 – 2015-07-20 20:47:38