-1
我没有得到任何解决方案,我们有选项可用于使用Pypdf
提取整个文本,但我想逐行提取文本。任何帮助,将不胜感激。由于如何从Python中的Pdf中逐行提取文本?
我没有得到任何解决方案,我们有选项可用于使用Pypdf
提取整个文本,但我想逐行提取文本。任何帮助,将不胜感激。由于如何从Python中的Pdf中逐行提取文本?
如果你正在使用Ubuntu,你可以这样做:
$ less <file_name>.pdf >op.txt
,并首先在PDF文本重定向到一个文本文件,然后使用Python代码逐行阅读:
f=open("op.txt",'r')
for line in f:
line=line.strip('\n')
print(line)
f.close()
尽管less可以自动调用某些转换器(例如[Poppler](https://poppler.freedesktop.org/)中的pdftotext),但它不是转换器本身。这很可能只是复制PDF。 –
StackOverflow希望您[尝试首先解决您自己的问题](http://meta.stackoverflow.com/questions/261592),并且我们也[不回答作业问题](https:// softwareengineering.meta.stackexchange.com/questions/6166)。请更新您的问题,以显示您已经在[最小,完整和可验证的示例]中尝试过的内容(http://stackoverflow.com/help/mcve)。有关更多信息,请参阅[如何提出良好问题](http://stackoverflow.com/help/how-to-ask),并参加[网站之旅](http://stackoverflow.com/tour ):) – Barmar
我想这个,但它是给整个文本。我想逐行提取文本。 进口PyPDF2 pdfFileObj =开放(R'C:\ Users \用户桌面\ new.pdf”, 'RB') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) pageObj = pdfReader.getPage(0) 文本= STR(pageObj .extractText()) –
将您的代码放在问题中,以便格式正确且可读。 – Barmar