2016-11-10 635 views
0

我试图用我编写的这个小脚本完成的任务就是解析PDF文件中的数据。将文件内容复制到剪贴板并在python中自动粘贴到纯文本文件中

但是,我似乎遇到了python的问题,更具体地说,PyPDF2模块无法从PDF文件中读取文本。打印出的数据都是模糊的,基本上不可读。但是,当我打开我正在尝试阅读的pdf文件时,我可以简单地使用click drag and ctrl+c复制内容,然后将其粘贴到纯文本文件中时,它可以完美地工作。当我手动完成复制和粘贴过程时,数据是可读的。

所以我想要做的就是模仿这个确切的步骤,但是使它自动化而不是让我浏览执行上述步骤的pdf文件中的所有页面。

或者如果有什么建议我还能做什么来实现这一点,我将不胜感激。我曾尝试将PDF文件转换为DOCX和纯文本文件,但该文件的内容有自己的格式完全重新安排

import PyPDF2 
pdfFileObj = open('sjsuclassdata.pdf', 'rb') 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 
pdfReader.numPages 

pageObj = pdfReader.getPage(4) 
print(pageObj.extractText()) 

编辑 本质上讲我试着现在要做的就是简单地编写一个脚本这将执行以下操作。

1)阅读PDF文件

2)复制整个页面的内容(Ctrl + A)

3)整个页面糊状内容为纯文本文件(Ctrl + V)

4)阅读PDF文件,直到结束

回答

0

我会给石板一试:

import slate 

output_prefix = 'foobar' 
file_ext = 'txt' 

with open('example.pdf') as f: 
     doc = slate.PDF(f) 
     for page_number, page in enumerate(doc): 
      open('%s_%s.%s' % (output_suffix, page_number, file_ext), 'w+').write(doc[page_number]) 
+0

感谢suggesti然而,我一直在试图安装石板无济于事:( –