2011-02-05 120 views
4

是否可以使用PHP或Linux库获取PDF文档中所有文本框的X/Y坐标和高度/宽度?我正在使用PDFTK来提取PDF中的所有文本字段,但它不会提供坐标和/或尺寸信息。如果不是,是否可以遍历PDF文档并计算文本字段的x,y和高度/宽度数据?获取PDF中文本框的尺寸和坐标

回答

0

这是可能的,但很难做到。

您可以使用FPDI在PHP中打开PDF文档。它在内存中生成一个抽象的PDF对象树。 TCPDF和FPDF可以将其保存回去。

但遍历所述树并找到正确的属性是非常。 (我意外的动词。)

现在PDF格式实际上是人类可读的。它肯定会包含可读格式的坐标(它主要在点IIRC)。所以如果你只知道在哪里寻找,你可能会用简单的正则表达式来发现它。有些节点只需要进行gzuncompress()编辑,而不是试图修改文档或将其保存回去。所以,试试FPDI和print_r()来设计一个策略。

0

是的,这不是太难。我所知道的最好的工具是pdfminer。它是python,但如果你不想使用python,你可以将pdf信息转换为xml格式,然后用你选择的武器解析它:)回复如果你有麻烦:)