PDFMINER工具pdf2txt抓取数据顺序

我想从PDF文件中提取数据。我正在使用pdfminer工具pdf2txt将PDF转换为纯文本。但是生成的文本文件已经搞乱了数据的顺序（无论表遇到了什么，也不管它在哪里）。然后，我尝试将cnverting pdf转换为html，但是，唉，结果相同。我是python新手......并且我也无法理解pdfminer库的大量工作。有什么办法来保存数据的顺序吗？PDFMINER工具pdf2txt抓取数据顺序

来源

2012-07-07 vvy

尝试用这些额外的参数运行脚本：像你描述-M 30 -W 0.95 -L 0.03

我有同样的问题，这提高了输出了很多。但是，使用pdftotext.exe获得更好的结果，这是xpdf的一部分。在这里下载：

http://www.foolabs.com/xpdf/download.html

迈克

来源

2012-07-26 00:32:47

PDFMINER工具pdf2txt抓取数据顺序

回答

相关问题