2010-10-15 75 views
5

我需要从PDF文档中提取表格对象,最好使用Perl编程。我可以剪切并粘贴到Excel,但是一旦数据导入到Excel中,表格就需要进行相当多的手动编辑。我可以使用Perl从PDF中提取表格吗?

我已经做了一些搜索,但到目前为止,虽然大多数论坛都表示大多数API都非常原始。

+0

我只花了半天的时间试图做的正是这一点。我的结论是,只需复制并粘贴到Excel中比试图以编程方式从PDF中获取数据更快。 – CanSpice 2010-10-15 19:56:53

+1

你看过CPAN吗?那里有几个高度评价的API。还有一些非免费的选项,如可以从Perl使用的PDFlib,并且工作得很好。 – Cfreak 2010-10-15 20:04:31

+0

@Cfreak,是的,我看过CPAN;如上所述,它似乎不像这些模块可以读取PDF中的对象。如果我错了,我很乐意指出正确的模块以及如何使用它来读取表格。 – Face 2010-10-15 20:59:01

回答

2

我知道的用于处理perl中的PDF的最佳模块是PDF::API2。但是,如果不了解更多关于操作的信息,您需要尽力进一步推荐。另一种可能性是使用Excel内置的VB功能进行编程,以便当您将表格复制到Excel电子表格时,它会触发一个宏,它将为您执行格式设置。

+1

我只需要处理表格中的文字。请记住,单元格可能有(空字段,多行,空格,逗号等)。如果我剪切和粘贴的话,告诉Excel使用哪个分隔符会带来挑战。 – Face 2010-10-15 20:48:51