我在每个页面包含一个地址的PDF文件。该地址格式为: Location Name
Street Address
City, State Zip
例如: The Gift Store
620 Broadway Street
Van Buren, AR 72956
每一个地址仅在这种格式,并各自为PDF的不同页面上。 我需要提取的地址信息,并存储在Excel/CSV文件的结果。
我想将几个PDF文件合并到一个PDF文档中。事实证明,输入文件并不完全符合标准。该EOF标记其次是一些附加信息: >>
startxref
1994481
%%EOF
%%PPIRoute: 4
很显然,这会导致pyPdf giving me an exception: pyPdf.utils.PdfReadError: EOF marker not found
现在的问题是:我
如何从Python中的PDF文件中提取文本? 我尝试以下: import sys
import pyPdf
def convertPdf2String(path):
content = ""
pdf = pyPdf.PdfFileReader(file(path, "rb"))
for i in range(0, pdf.getNumPages()):