嗨,我知道几个PDF 发电机为PHP(fpdf,dompdf等) 我想知道的是关于一个解析器。是否有PHP的解析器?
由于我无法控制的原因,我需要的某些信息仅在pdf 中的表中,我需要提取该表并将其转换为数组。
有什么建议吗?
嗨,我知道几个PDF 发电机为PHP(fpdf,dompdf等) 我想知道的是关于一个解析器。是否有PHP的解析器?
由于我无法控制的原因,我需要的某些信息仅在pdf 中的表中,我需要提取该表并将其转换为数组。
有什么建议吗?
看看GhostScript或ITextSharp,这里有各种各样的跨平台版本。
Zend_Pdf是Zend Framework的一部分。其手册指出:
的
Zend_Pdf
组分是PDF (便携式文档格式) 操纵引擎。它可以加载, 创建,修改和保存文件。 因此,它可以帮助任何PHP应用程序 动态创建PDF文档 修改现有文档或 从头开始生成新文档。
+1 - Zend Framework组件可靠地按照他们所说的去做。 – karim79 2009-08-09 22:50:23
我不相信你可以阅读使用Zend_Pdf的PDF文件中的文本 – 2010-03-18 14:14:03
除了Zend_Pdf不支持PDF格式> 1.4 – 2013-05-09 01:12:28
它实际上可能没有为PDF失去那种信息的PDF里面的一张桌子......
This是PHP PDF解析器,它存在于两种形式:
该链接已死,但我认为这是它的一个分支:https://github.com/mark9000/FPDI – nullability 2013-09-24 18:47:46
我以前写过一个(对于类似的需求),我可以这样说:玩得开心。这是一项相当复杂的任务。 PDF specification是庞大而笨拙的。有几种存储文本的方法。最引人注目的是每个PDF生成器在工作方式上都有所不同。因此,虽然像TFPDF或DOMPDF这样的东西创建真正容易阅读PDF(从机器的角度来看),但Acrobat制作了一些非常地狱般的文档。
原因是它如何写文本。大多数基于DOM的渲染器 - 我已经用它 - 将整行写成一个字符串,并将其定位一次(这非常容易阅读)。 Acrobat试图通过一次只写入一个或几个字符来更高效地(并且是),并独立地定位它们。虽然这真的简化了渲染,但它使阅读更加困难。
这里的优势在于PDF格式本身非常简单。你有遵循常规语法的“对象”。然后,您可以将它们链接在一起以生成内容。该规范在描述文件格式方面做得很好。但现实世界读书是要采取一些脑力...
建议一些有用的作品,我有学习困难的方式,如果你要自己编写:
65
可能不会是A
...您需要找到一个地图对象并根据其中的字符推断它正在做什么。而且它是有效的,因为如果一个字符没有出现在该字体的文档中,它就不包含它(如果你尝试以编程方式编辑一个PDF,这会使生活变得困难)...strlen
。使用mb_strlen($string, '8bit')
,因为它会补偿不同的字符集(并允许其他字符集中的潜在无效字符)。否则,好运...
+1我甚至可以称之为噩梦。规范很大,一个PDF文件几乎类似于一个文件系统,在这个文件系统中有许多不同的选项和选择......你当然可以看到他们如何在那里隐藏破解破解能力。 – Rudu 2010-08-31 22:07:19
您是否期望Adobe提供更少的内容? – bpeterson76 2010-09-02 15:49:16
@ bpeterson76,是的..我不希望我的PDF可以下载:( – 2014-02-13 10:32:54
我使用PDFBox的为(http://pdfbox.apache.org/)。这个软件是基于Java和平台独立的。它工作快速可靠。你可以通过exec或者shell执行或者通过PHP/Java-Bridge(http://php-java-bridge.sourceforge.net/)
非常感谢,这正是我正在寻找的! – 2ndkauboy 2010-09-02 16:44:42
我可以给予我们一个关于如何提取PDF文本的实例的任何人的赏金。该解决方案必须使用免费库(无xPDF或PDF2Text)和独立平台(必须在win和unix上工作,因此不需要PDF2Text)。它可以使用PHP的exec()或shell()函数。 – 2ndkauboy 2010-08-31 11:50:46
谢谢Kau-Boy。也许赏金将有助于激发更详细的答案。 – elviejo79 2010-09-01 04:39:58