我用下面的代码来读取pdf文件,但它没有读取它。可能是什么原因?使用python逐行读取pdf文件
>>> import os
>>> from PyPDF2 import PdfFileReader, PdfFileWriter
>>> path = "/Users/Rahul/Desktop/Dfiles/"
>>> dirs = os.listdir(path)
>>> directory = "/Users/Rahul/Desktop/Dfiles/106_2015_34-76357.pdf"
>>> f = open(directory, 'rb')
>>> reader = PdfFileReader(f)
>>> contents = reader.getPage(0).extractText().split('\n')
>>> f.close()
>>> print contents
输出是[u'']而不是读取内容。
它适用于0以外的其他页码吗?你确定PDF中有文字,而不仅仅是图像或图形吗? – mkrieger1