我需要从PDF文档中提取表格对象,最好使用Perl编程。我可以剪切并粘贴到Excel,但是一旦数据导入到Excel中,表格就需要进行相当多的手动编辑。我可以使用Perl从PDF中提取表格吗?
我已经做了一些搜索,但到目前为止,虽然大多数论坛都表示大多数API都非常原始。
我需要从PDF文档中提取表格对象,最好使用Perl编程。我可以剪切并粘贴到Excel,但是一旦数据导入到Excel中,表格就需要进行相当多的手动编辑。我可以使用Perl从PDF中提取表格吗?
我已经做了一些搜索,但到目前为止,虽然大多数论坛都表示大多数API都非常原始。
我认为最好的CPAN模块可能是CAM::PDF
。
但是我没有使用模块,所以我不能确认它会(很容易)按照你的要求做,但它是PDF manipulation library
和modules author does answer questions约为CAM::PDF
。
也看到前面的问题:How can I extract text from a PDF file in Perl?
/I3az/
我只花了半天的时间试图做的正是这一点。我的结论是,只需复制并粘贴到Excel中比试图以编程方式从PDF中获取数据更快。 – CanSpice 2010-10-15 19:56:53
你看过CPAN吗?那里有几个高度评价的API。还有一些非免费的选项,如可以从Perl使用的PDFlib,并且工作得很好。 – Cfreak 2010-10-15 20:04:31
@Cfreak,是的,我看过CPAN;如上所述,它似乎不像这些模块可以读取PDF中的对象。如果我错了,我很乐意指出正确的模块以及如何使用它来读取表格。 – Face 2010-10-15 20:59:01