2017-11-18 77 views
-1

我没有得到任何解决方案,我们有选项可用于使用Pypdf提取整个文本,但我想逐行提取文本。任何帮助,将不胜感激。由于如何从Python中的Pdf中逐行提取文本?

+0

StackOverflow希望您[尝试首先解决您自己的问题](http://meta.stackoverflow.com/questions/261592),并且我们也[不回答作业问题](https:// softwareengineering.meta.stackexchange.com/questions/6166)。请更新您的问题,以显示您已经在[最小,完整和可验证的示例]中尝试过的内容(http://stackoverflow.com/help/mcve)。有关更多信息,请参阅[如何提出良好问题](http://stackoverflow.com/help/how-to-ask),并参加[网站之旅](http://stackoverflow.com/tour ):) – Barmar

+0

我想这个,但它是给整个文本。我想逐行提取文本。 进口PyPDF2 pdfFileObj =开放(R'C:\ Users \用户桌面\ new.pdf”, 'RB') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getPage(0) 文本= STR(pageObj .extractText()) –

+0

将您的代码放在问题中,以便格式正确且可读。 – Barmar

回答

0

如果你正在使用Ubuntu,你可以这样做:

$ less <file_name>.pdf >op.txt 

,并首先在PDF文本重定向到一个文本文件,然后使用Python代码逐行阅读:

f=open("op.txt",'r') 

for line in f: 
    line=line.strip('\n') 
    print(line) 
f.close() 
+0

尽管less可以自动调用某些转换器(例如[Poppler](https://poppler.freedesktop.org/)中的pdftotext),但它不是转换器本身。这很可能只是复制PDF。 –