2011-08-09 29 views
45

如何使用PHP从PDF文档中提取文本?如何从PDF文档中提取文本?

(我不能使用其他工具,我没有root访问权限)

我发现了一些功能,纯文本的工作量,但他们没有处理好Unicode字符:

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

+0

你解决了这个? – 2012-08-23 05:35:00

+0

链接不起作用!请纠正! – cwiggo

+12

不明白为什么这个问题被认为是题外话,因为它是非常有用的,即使它可能会吸引“自以为是”的答案,但最好能看到不同的观点。也有很多点击。 – user3574492

回答

43

下载class.pdf2text.php @https://pastebin.com/dvwySU1a(更新2014年4月的5)或http://www.phpclasses.org/browse/file/31030.html(需要注册)

代码:

include('class.pdf2text.php'); 
$a = new PDF2Text(); 
$a->setFilename('filename.pdf'); 
$a->decodePDF(); 
echo $a->output(); 

类并不适用于所有PDF格式的我测试过的工作,试试看,你可能会得到幸运:)


如果上述方法无效,请尝试http://pdfparser.org/

+2

如果这里是pdf文件中的任何表格,那么它不会显示它。我想提取,因为它是以PDF格式显示PDF格式的文本。任何解决方案? – 2012-08-23 05:36:28

+0

非常感谢...这个班级非常有用。在这个我只需要一个来自pdf的网址。任何方式来找到...? –

+0

该类包含可能导致'头已发送'错误的输出缓冲区刷新。如果您禁用它(对于任何合理大小的文档),看似没有任何不良影响。 –

9

我知道这个话题是相当古老的,但这种需求仍然活着。 我看了很多文件,论坛和脚本,并建立一个新的先进的一个,它支持压缩和非压缩的PDF:

https://gist.github.com/smalot/6183152

希望它可以帮助EVERONE

+0

似乎没有得到您的脚本输出。你有可以测试的PDF吗? –

+0

这对我有用!谢谢 – kakoma

+0

我在这里找到了一个好的:https://github.com/christian-vigh-phpclasses/PdfToText – dlofrodloh