2012-01-12 83 views
2

我需要阅读复杂PDF中的某些部分。我搜索了网络,有人说FPDF是好的,但它不能阅读PDF,它只能写。有没有一个lib允许获得给定PDF的某些内容?用PHP阅读PDF的内容?

如果不是,读取给定PDF的某些部分是一种好方法吗?

谢谢!

+0

你如何定义 '某些部分'?按页面?通过文档上的坐标位置?等等; – Jakub 2012-01-12 13:42:25

+0

不确定我自己,我不熟悉PDF结构... Illproly将其转换为文本之前,并解析,使用一些正则表达式。 – EOB 2012-01-12 13:46:07

回答

1

我在这里看到的两个解决方案:

  • 转换PDF文件到之前别的东西:text,HTML。
  • 在这里使用库来做到这一点和坏消息,其中大部分都是用Java编写的。

https://whatisprymas.wordpress.com/2010/04/28/lucene-how-to-index-pdf-files/

+0

是否有一个Widnows cmd工具? – EOB 2012-01-12 13:44:06

+0

它似乎是的:http://www.foolabs.com/xpdf/download.html – greut 2012-01-12 13:52:28

+0

是的,即使是复杂的PDF文件,它转换的速度也相当快。我想没有其他办法了......必须先解析文本。 – EOB 2012-01-12 13:53:32