如何从Python中的Pdf中逐行提取文本？

-1

我没有得到任何解决方案，我们有选项可用于使用Pypdf提取整个文本，但我想逐行提取文本。任何帮助，将不胜感激。由于如何从Python中的Pdf中逐行提取文本？

2017-11-18 Santosh Vishwakarma

StackOverflow希望您[尝试首先解决您自己的问题]（http://meta.stackoverflow.com/questions/261592），并且我们也[不回答作业问题]（https：// softwareengineering.meta.stackexchange.com/questions/6166）。请更新您的问题，以显示您已经在[最小，完整和可验证的示例]中尝试过的内容（http://stackoverflow.com/help/mcve）。有关更多信息，请参阅[如何提出良好问题]（http://stackoverflow.com/help/how-to-ask），并参加[网站之旅]（http://stackoverflow.com/tour ）:) – Barmar

我想这个，但它是给整个文本。我想逐行提取文本。进口PyPDF2 pdfFileObj =开放（R'C：\ Users \用户桌面\ new.pdf”， 'RB'） pdfReader = PyPDF2.PdfFileReader（pdfFileObj） pageObj = pdfReader.getPage（0）文本= STR（pageObj .extractText（）） –

将您的代码放在问题中，以便格式正确且可读。 – Barmar

如果你正在使用Ubuntu，你可以这样做：

$ less <file_name>.pdf >op.txt

，并首先在PDF文本重定向到一个文本文件，然后使用Python代码逐行阅读：

f=open("op.txt",'r') 

for line in f: 
    line=line.strip('\n') 
    print(line) 
f.close()

来源

2017-11-18 08:25:26

尽管less可以自动调用某些转换器（例如[Poppler]（https://poppler.freedesktop.org/）中的pdftotext），但它不是转换器本身。这很可能只是复制PDF。 –

如何从Python中的Pdf中逐行提取文本？

回答

相关问题