2013-06-12 59 views
-1

如何检测,损坏的pdf(使用python)?检测并删除损坏的PDF

我有很多pdf。其中一些pdf已经损坏,应该删除。我如何检测和删除?

我用:

from pyPdf import PdfFileReader 

try : 
    mypdf = PdfFileReader(file('sample.pdf', 'rb')) 
except: 
    print ' is invalid pdf' 

但如何自动从文件中读取PDF文件,并删除损坏的PDF文件?

+0

请您澄清“损坏的PDF”术语的含义,Adobe Reader是否无法读取? –

+0

是的,没有打开它 –

+0

损坏pdf文件 –

回答

1

Adob​​e Reader实际上包含了很多自动修复功能,因此它会打开很多损坏的PDF文件。

+0

是的,当然,但下载的PDF文件不完整,无法修复。 –

+0

然后只检查它在最后1024个字节中有%% EOF –

+0

我该如何检查? –