如何读取PDF文件并将内容转换为字符串?使用PHP语言。将PDF转换为字符串
8
A
回答
10
+1
谢谢,但有了这个功能,我总是会得到“假”的价值。 – lolalola 2011-01-24 11:10:13
7
您可以使用类似pdftotext附带Linux上的xpdf的包。然后POPEN命令可用于管道pdftotext的输出转换成字符串:
$mystring = "";
$fd = popen("/usr/bin/pdftotext blah.pdf","r");
if ($fd) {
while (($myline = fgets($fd)) !== false) {
$mystring .= $myline;
}
}
3
发现这个非常好的类!此外,您可以添加功能以适应您的需求。
也许这些会帮助你增加功能:
如果不起作用,请检查在Adobe Reader中打开时是否可以突出显示/标记文本(如果不能,文件中的文本可能保存为几何曲线),请检查编码。
0
在您的服务器上安装APACHE-TIKA。 APACHE-TIKA支持更多pdf文件。 安装指南: http://www.acquia.com/blog/use-apache-solr-search-files
和最终的代码很简单:
$string = "";
$fd = popen("java -jar yourpathtotika/tika-app-1.3.jar -t yourpathtopdf/sample.pdf","r");
while (!feof($fd)) {
$buffer = fgets($fd, 4096);
$string .= $buffer;
}
echo $string;
0
您可以使用PHP类,可以在这里找到:
这是一个公共领域的PDF文本提取器完全用纯PHP编写,这意味着您不需要依赖外部命令。它提供了一个简单的界面,检索文字:
include ('PdfToText.phpclass') ;
$pdf = new PdfToText ('mysample.pdf') ;
echo "PDF contents are : " . $pdf -> Text . "\n" ;
相关问题
- 1. 将HTML字符串转换为PDF转换
- 2. 将字符串转换为字符串
- 3. 将字符串转换为
- 4. 将字符串转换为“_”
- 5. 将字符串转换为?
- 6. 将字符串转换为字符
- 7. 将字符串转换为字符
- 8. 将字符串转换为字符
- 9. 将char字符串转换为字符
- 10. Java - 将字符串转换为字符[]
- 11. InfixToPostfix将字符转换为字符串
- 12. 将字节[]转换为PDF
- 13. 将html字符串转换为pdf与prawnto
- 14. 将JavaScript符号转换为字符串?
- 15. 将字符串转换为运算符
- 16. JQuery.each将字符串文字转换为字符串。为什么?
- 17. 将字符串转换为数字node.js
- 18. Knockout.js将数字转换为字符串
- 19. 将字符串转换为字列表?
- 20. 将字符串转换为字节[]
- 21. Java - 将字节[]转换为字符串
- 22. 将字节转换为字符串
- 23. 将字符串转换为字节
- 24. 将字符串转换为数字
- 25. 将字符串转换为python字典
- 26. Python将字符串转换为字典
- 27. 将字节[]转换为UTF8字符串
- 28. 将字典转换为字符串
- 29. Android:EditTextPreference将字符串转换为数字
- 30. 将python字典转换为字符串
使用[`file_get_contents`(http://de3.php.net/manual/en/function.file-get-contents.php)如果你需要原始二进制数据或更新您的问题,并告诉我们您真正想要的。 – 2011-01-24 10:03:08
我需要从pdf文件中获得干净的文本。当我从pdf文件中获取文本时,我需要在数据库中插入此文本。 – lolalola 2011-01-24 11:09:14