我运行一个求职网站,我需要将doc,docx和pdf文件转换为运行php的Linux CentOS服务器上的HTML文件。人们将这些文件作为简历提交。到目前为止,我发现PHPDocx在将docx转换为html方面非常出色。但我被困在doc/pdf中。当我运行测试时,PDFTOHTML给出错误“不好的颜色”。至于文档,我只发现了wvwave,这看起来很复杂和庞大的安装。使用PHP将doc,docx,pdf转换为HTML linux
没有人有任何想法如何轻松将doc/pdf转换为HTML?
我运行一个求职网站,我需要将doc,docx和pdf文件转换为运行php的Linux CentOS服务器上的HTML文件。人们将这些文件作为简历提交。到目前为止,我发现PHPDocx在将docx转换为html方面非常出色。但我被困在doc/pdf中。当我运行测试时,PDFTOHTML给出错误“不好的颜色”。至于文档,我只发现了wvwave,这看起来很复杂和庞大的安装。使用PHP将doc,docx,pdf转换为HTML linux
没有人有任何想法如何轻松将doc/pdf转换为HTML?
我唯一能想到的就是FPDF。 它旨在用PHP创建PDF文件,但它也可以打开PDF文件。 也许你可以使用它作为基础,并为它开发某种toHTML函数。
它是完全免费使用,它已经有一些扩展。 它可能会帮助你。
编辑: 感谢除了我的帖子在评论皮埃尔:
您可以使用FPDI:http://www.setasign.de/products/pdf-php-solutions/fpdi但输入PDF就像一个图像。
到目前为止我还没有看过它,但这可能有帮助。
你是垃圾邮件FPDF?用户明确要求PDF到HTML,而不是相反 – user1914292 2013-08-20 08:11:48
我知道!但它也可以读取现有的PDF文件,我非常确信你可以开发一些能够使用FPDF作为基类来输出HTML的东西! – Ch33f 2013-08-20 12:39:52
+1因为不公平user1914292的downvote,他没有阅读答案和downvoted。但是Ch33f,你不能按预期使用fdpf。您可以使用fpdi:http://www.setasign.de/products/pdf-php-solutions/fpdi/,但输入pdf就像图像一样。 – Pierre 2013-08-26 17:55:55
至于.doc文件想到如何努力的OpenOffice/LibreOffice的,是这样的:
lowriter -convert-to html doc_file.doc –
至于PDF推移,如果PDF是文本的图形表示,那么你的运气了,最好你可以做的是尝试将它转换为ImageMagick图像,如果它是一个适当的文本,它应该很容易转换。
要轻松地将PDF转换为html,我会建议pdf2htmlEX,它会生成出色的HTML,并且运行时转换足够快。您应该首先努力为您的系统进行优化和构建。项目链接中包含简单的构建方法。
有各种工具,有已经做到这一点,如http://dag.wieers.com/home-made/unoconv/,http://www.phpdocx.com/(你已经尝试过)
http://www.phplivedocx.org/2009/08/13/convert-docx-doc-rtf-to-html-in-php/看起来很有希望。
或者,你可以安装在服务器上的LibreOffice的一个便携版本,它允许命令行转换
我相信还会有教程在那里(在LibreOffice的支撑区域)
你有专用的服务器或您使用分片托管? – pregmatch 2013-08-26 16:55:15
PDF to HTML:http://stackoverflow.com/questions/16785198/use-pdf-js-to-statically-convert-a-pdf-to-html – SteAp 2013-08-26 18:09:21
PDF to HTML based on Xpdf:http:// sourceforge。 net/projects/pdftohtml/ – SteAp 2013-08-26 18:12:00