当从PDF中读取文本时,它在Python3中如何识别?我想知道Python3如何“看到”它,以便我可以告诉它需要查找,保存什么信息等。如何从Python中的“可见”PDF中提取文本?
我的最终目标是阅读PDF,从读取的信息中查找某些文本,然后创建一个新的仅包含符合标准的信息行。作为一个粗略的例子(伪代码):
-Read the PDF,if column 4 has a'x'in,copy the ROW to a separate file(skip,if it does not contain'x'),继续直到PDF结束。
-Read NEW doc,如果第1列有'n',请保留行,否则删除它。
我知道这不是最理想的做法,我计划在稍后修复该部分。
你自己做了什么研究吗? http://www.unixuser.org/~euske/python/pdfminer/index.html –
您应该首先阅读您正在使用的PDF工具的源代码(如果可用)。看看[Stack Overflow用户需要多少研究工作?](http://meta.stackoverflow.com/q/261592/7432) –