2012-07-07 76 views
1

我想从PDF文件中提取数据。我正在使用pdfminer工具pdf2txt将PDF转换为纯文本。但是生成的文本文件已经搞乱了数据的顺序(无论表遇到了什么,也不管它在哪里)。然后,我尝试将cnverting pdf转换为html,但是,唉,结果相同。我是python新手......并且我也无法理解pdfminer库的大量工作。有什么办法来保存数据的顺序吗?PDFMINER工具pdf2txt抓取数据顺序

回答

2

尝试用这些额外的参数运行脚本:像你描述-M 30 -W 0.95 -L 0.03

我有同样的问题,这提高了输出了很多。但是,使用pdftotext.exe获得更好的结果,这是xpdf的一部分。在这里下载:

http://www.foolabs.com/xpdf/download.html

迈克