我试图使用pyPdf从多页PDF中提取和打印页面。问题是,文本不是从某些页面提取的。我在这里提出一个例子文件:pyPdf无法从我的PDF中的某些页面提取文本
http://www.4shared.com/document/kmJF67E4/forms.html
如果您运行以下,第一页81返回没有文字,而最终11提取正常。谁能帮忙?
from pyPdf import PdfFileReader
input = PdfFileReader(file("forms.pdf", "rb"))
for page in input1.pages:
print page.extractText()
感谢您的帮助。我试过pdftotext并通过它,因为它只能部分解决问题。我需要根据在每个页面上找到的UID将PDF拆分为单独的文件。然而,pyPdf可以提取的最后10页左右没有文本页面标签,所以使用pdftotext,虽然它给了我所有的文本,但并没有给我一种为给定的UID生成页面列表的方法。 – DrJAKing 2010-11-17 11:26:00
这不会输出PDF文本,但不会保留表格格式。 – s2t2 2017-07-13 19:50:25