pypdf

    0热度

    3回答

    我正在编写一个关于提取pdf中的文本的函数,我也使用pyPdf库。 提取是好的。但是我遇到了一些像排除换行符一样的问题。 于是我找到一个方法来添加一个新行,所以我这样做: # Iterate pages for i in range(0, pdf.getNumPages()): # Extract text from page and add to content conte

    0热度

    1回答

    text = getPDFContent(path).encode("ascii", "ignore") 这是我的实际代码。任何人都可以告诉我什么被忽视吗?如果有另一个参数不复制非ascii字符? (我抄了函数,用来得到pdf的内容) 谢谢

    0热度

    1回答

    我正在寻找将PDF转换为纯文本格式的最简单方法。 PyPDF2似乎是很容易的,这里是我有: def test_pdf(filename): import PyPDF2 pdf = PyPDF2.PdfFileReader(open(filename, "rb")) for page in pdf.pages: print page.extractText() 但它给了我:从Py

    4热度

    1回答

    我有很多pdf页面,我想将它们合并到一个文件中。 我的脚本如下: from PyPDF2 import PdfFileMerger,PdfFileReader filename_list=[] merger = PdfFileMerger() for i in range (0,66): filename='page'+str(i)+'.pdf' if not filen

    1热度

    1回答

    我有一个Python项目与自己的需求文件。该项目也有自己的virtualenv,其中一个包是'pyPdf'。这个库有一个bug,我写了一个补丁来修复这个bug。 --- venv/local/lib/python2.7/site-packages/pyPdf/pdf.py 2014-07-17 17:04:57.000000000 +0530 +++ pypdf_fixer.py 2014-07

    10热度

    3回答

    作为一个新手......我在安装pyPDF2模块时遇到困难。我已经下载了。在哪里以及如何安装(setup.py),以便我可以在Python解释器中使用模块?

    0热度

    1回答

    有没有什么办法从通过Google app引擎上传的PDF文件中提取文本和documentInfo?我想用PyPDF2,和我的代码是这样的: pdf_file = self.request.POST['file'].file pdf_reader = pypdf.PdfFileReader(pdf_file) 这给了我错误: Traceback (most recent call last):

    1热度

    1回答

    这个问题涉及到PyPDF2使用的Python 3 的ghostscript显然是能够有效地计算出PDF页面中的内容的边框如下: gs -dBATCH -dSAFER -dNOPAUSE -sDEVICE=bbox document1.pdf 在上面的例子返回的结果似乎是正确的,是: GPL Ghostscript 9.10 (2013-08-30) Copyright (C) 2013 Ar

    0热度

    1回答

    我正在创建一个使用PyPdf2的python脚本。我试图在文件名中使用通配符打开和追加文件。它在字面上取文件名。 有没有办法在PyPdf2中声明带有打开和合并功能的通配符?如果是这样,怎么样?

    0热度

    2回答

    嗨即时尝试水印PDF文件使用pypdf2虽然我得到这个错误,我不知道出了什么问题。使用Python 2.7.6在Windows 32位pypdf2 1.19 Traceback (most recent call last): File "test.py", line 13, in <module> page.mergePage(watermark.getPage(0)) File "C