2009-06-05 128 views
20

将PDF文档转换为HTML浏览器的最佳解决方案是什么?该网站有几个PDF文档,访问者可以点击浏览为HTML,这应该在屏幕上作为HTML文件进行查看。将PDF转换为HTML

运行PHP,Linux,Apache的标准网站。

+0

你看着pdfjs? http://mozilla.github.io/pdf.js/ – 2013-05-06 09:16:32

回答

6

pdftohtml工作正常:快速,稳定但html结果最好是丑陋的。我已经用了很长一段时间为一个有很多工作简历的网站。

然而,这是提取文本内容的好方法。

我会给scribd API一个尝试

或谷歌应用程序文件API。谷歌做了伟大的工作,一个显示和转换PDF文件

+4

对于科学论文,这看起来令人难以置信:https://github.com/coolwanglu/pdf2htmlEX – JDonner 2014-05-17 19:14:55

+0

@JDonner一个警告:最终的HTML代码是不可读的,通常是不可编辑的,需要兆字节的空间 - 至少对于我测试过的PDF(对于674.5 KiB PDF为2.8 MiB HTML)而言。这种大尺寸使其特别对服务不利,并造成不良阅读体验(缓慢滚动等)。 – Ruslan 2016-09-11 09:30:44

4

您是否考虑将PDF数据保存在数据库中,然后根据访问者的选择动态创建PDF或html页面?

4

如果您在主机提供商处有命令行访问权限,poppler_utils包内有一个名为pdftohtml的实用程序。

http://poppler.freedesktop.org/

看起来很容易使用,并没有从PHP的内部调用它,但它应该工作。

+0

pdftohtml不保留风格 – andrei 2017-08-25 14:31:07