2011-05-13 219 views
9

我运行一个求职网站,我需要将doc,docx和pdf文件转换为运行php的Linux CentOS服务器上的HTML文件。人们将这些文件作为简历提交。到目前为止,我发现PHPDocx在将docx转换为html方面非常出色。但我被困在doc/pdf中。当我运行测试时,PDFTOHTML给出错误“不好的颜色”。至于文档,我只发现了wvwave,这看起来很复杂和庞大的安装。使用PHP将doc,docx,pdf转换为HTML linux

没有人有任何想法如何轻松将doc/pdf转换为HTML?

+1

你有专用的服务器或您使用分片托管? – pregmatch 2013-08-26 16:55:15

+0

PDF to HTML:http://stackoverflow.com/questions/16785198/use-pdf-js-to-statically-convert-a-pdf-to-html – SteAp 2013-08-26 18:09:21

+0

PDF to HTML based on Xpdf:http:// sourceforge。 net/projects/pdftohtml/ – SteAp 2013-08-26 18:12:00

回答

3

我唯一能想到的就是FPDF。 它旨在用PHP创建PDF文件,但它也可以打开PDF文件。 也许你可以使用它作为基础,并为它开发某种toHTML函数。

它是完全免费使用,它已经有一些扩展。 它可能会帮助你。

http://www.fpdf.org

编辑: 感谢除了我的帖子在评论皮埃尔:

您可以使用FPDI:http://www.setasign.de/products/pdf-php-solutions/fpdi但输入PDF就像一个图像。

到目前为止我还没有看过它,但这可能有帮助。

+0

你是垃圾邮件FPDF?用户明确要求PDF到HTML,而不是相反 – user1914292 2013-08-20 08:11:48

+0

我知道!但它也可以读取现有的PDF文件,我非常确信你可以开发一些能够使用FPDF作为基类来输出HTML的东西! – Ch33f 2013-08-20 12:39:52

+2

+1因为不公平user1914292的downvote,他没有阅读答案和downvoted。但是Ch33f,你不能按预期使用fdpf。您可以使用fpdi:http://www.setasign.de/products/pdf-php-solutions/fpdi/,但输入pdf就像图像一样。 – Pierre 2013-08-26 17:55:55

3

至于.doc文件想到如何努力的OpenOffice/LibreOffice的,是这样的:
lowriter -convert-to html doc_file.doc –
至于PDF推移,如果PDF是文本的图形表示,那么你的运气了,最好你可以做的是尝试将它转换为ImageMagick图像,如果它是一个适当的文本,它应该很容易转换。

1

要轻松地将PDF转换为html,我会建议pdf2htmlEX,它会生成出色的HTML,并且运行时转换足够快。您应该首先努力为您的系统进行优化和构建。项目链接中包含简单的构建方法。