从很多PDF表格中提取数据

我经常收到大量相同的PDF表单。我想从他们的数据提取到一个文本文件。我想通过某种脚本来做到这一点。我正在UNIX环境中工作。从很多PDF表格中提取数据

这可能吗？我一直在搜寻我的大脑，找不到任何东西。

2014-08-29 Greg

PDF中的文本由页面内容流中的文本元素表示。流通常被压缩。如果您有时间和资源，可以使用ISO 32000-1：2008或Adobe PDF 1.7规范来构建您自己的PDF解析器。或者使用第三方应用程序作为中间转换步骤可能更实用。

有些工具可以解码流并为您提供明文。一个选项是PDFtk Server，它可以在你的环境中工作。另一种选择是使用Poppler PDF渲染库，该库有一个命令行实用程序“pdftotext”，用于搜索PDF中的字符串。

2014-08-29 15:35:23

该操作讨论了PDF表单。 PDF格式的内容是**不是**页面内容的一部分。因此，提取页面内容将无济于事。当然，据说假设op表示根据规范的PDF表单... – mkl 2014-08-29 19:56:27

不幸的是，我没有安装在服务器上的许多开源工具，也无法安装它们。我发现这很有可能在Excel中使用VBA和一些Acrobat库进行这种提取。不幸的是，这对我的问题没有帮助，但Excel解决方案非常简单。 – Greg 2014-09-27 22:01:33

回答