2014-08-29 61 views
0

我经常收到大量相同的PDF表单。我想从他们的数据提取到一个文本文件。我想通过某种脚本来做到这一点。我正在UNIX环境中工作。从很多PDF表格中提取数据

这可能吗?我一直在搜寻我的大脑,找不到任何东西。

回答

0

PDF中的文本由页面内容流中的文本元素表示。流通常被压缩。如果您有时间和资源,可以使用ISO 32000-1:2008或Adobe PDF 1.7规范来构建您自己的PDF解析器。或者使用第三方应用程序作为中间转换步骤可能更实用。

有些工具可以解码流并为您提供明文。一个选项是PDFtk Server,它可以在你的环境中工作。另一种选择是使用Poppler PDF渲染库,该库有一个命令行实用程序“pdftotext”,用于搜索PDF中的字符串。

+0

该操作讨论了PDF表单。 PDF格式的内容是**不是**页面内容的一部分。因此,提取页面内容将无济于事。当然,据说假设op表示根据规范的PDF表单... – mkl 2014-08-29 19:56:27

+0

不幸的是,我没有安装在服务器上的许多开源工具,也无法安装它们。 我发现这很有可能在Excel中使用VBA和一些Acrobat库进行这种提取。不幸的是,这对我的问题没有帮助,但Excel解决方案非常简单。 – Greg 2014-09-27 22:01:33