如何检测,损坏的pdf(使用python)?检测并删除损坏的PDF
我有很多pdf。其中一些pdf已经损坏,应该删除。我如何检测和删除?
我用:
from pyPdf import PdfFileReader
try :
mypdf = PdfFileReader(file('sample.pdf', 'rb'))
except:
print ' is invalid pdf'
但如何自动从文件中读取PDF文件,并删除损坏的PDF文件?
如何检测,损坏的pdf(使用python)?检测并删除损坏的PDF
我有很多pdf。其中一些pdf已经损坏,应该删除。我如何检测和删除?
我用:
from pyPdf import PdfFileReader
try :
mypdf = PdfFileReader(file('sample.pdf', 'rb'))
except:
print ' is invalid pdf'
但如何自动从文件中读取PDF文件,并删除损坏的PDF文件?
Adobe Reader实际上包含了很多自动修复功能,因此它会打开很多损坏的PDF文件。
是的,当然,但下载的PDF文件不完整,无法修复。 –
然后只检查它在最后1024个字节中有%% EOF –
我该如何检查? –
请您澄清“损坏的PDF”术语的含义,Adobe Reader是否无法读取? –
是的,没有打开它 –
损坏pdf文件 –