首先是一些背景:我的网站有两种基本类型的用户。拥有免费账户的用户可以上传文件,付费用户则可以搜索并查看或下载这些文件。上传者只能查看他们拥有的文件,而付费的客户则可以查看任何内容。目前我们只支持Word文档(.doc或.docx)和纯文本。我们使用JODConverter库在Word和html之间进行转换; html是存储在数据库中的内容以及向用户显示的内容。
我们也想转移到接受PDF格式,但我不确定什么是最好的方式去显示PDF或将其转换为HTML。我曾看到有人建议使用Google文档进行即时转换,但考虑到Google必须公开访问该文档,因此限制访问权似乎不可行 - 如果我错了,请纠正我的错误。它似乎只是在HTML(或类似PDFBox的东西)中使用标签会遇到同样的问题。
或者我们可能会忘记直接显示PDF文件并将它们转换为html,就像我们对Word文档所做的一样,但我还没有遇到过一个体面的库。到目前为止,我所看到的所有东西似乎都表明,它并不能完成转换工作,仅仅是Window和/或拥有巨额许可费用。 (如果许可费不超过每年100美元左右,许可费不一定是交易断路器)有谁知道一个好的Java转换库? (如果它确实做得很好,那么通过命令行运行的东西是可以接受的。)
最后一件事,我们计划向付费客户提供下载原始PDF文件的选项。这可能会很复杂吗?在构建过程的其余部分时,我应该记住什么?需要关于在网络上显示(和/或转换)pdf文件的建议
3
A
回答
1
而不是将PDF转换为HTML,这意味着某种OCR(识别文本),您可以通过像JPedal这样的工具将PDF转换为图像,并创建一个按顺序链接到这些图像的HTML页面。由于这是Java库,它不仅仅是Windows。
下载原始PDF文件不应该是一个问题。您必须将mimetype设置为标准PDF扩展名:application/pdf。
相关问题
- 1. 需要一些关于在div中显示图像的建议
- 2. 在网络浏览器上显示DirectX .x文件或转换为.obj文件
- 3. 需要关于AJAX和jquery的建议
- 4. 需要关于SysLog和Node.js的建议
- 5. 需要关于此类网站技术或设计的建议?
- 6. 需要关于模板配置文件和审计的建议
- 7. 需要关于如何在框架上显示结果的建议
- 8. 显示PDF在网络
- 9. 需要关于OOP哲学的建议
- 10. 需要关于Facebook连接的建议
- 11. Kohana - 需要关于路由的建议
- 12. 需要关于Websphere教程的建议
- 13. 需要关于sql server表的建议
- 14. 需要关于框架的建议
- 15. 需要关于嵌套Promises.all的建议
- 16. 需要关于MS word文件ecryption/decryption的建议
- 17. 需要关于发布管理策略的建议或指导
- 18. 需要关于选择Rails或PHP的建议
- 19. 创建邮件程序和邮件类。需要关于处置的建议
- 20. 需要关于简单CSS工具提示的建议
- 21. 需要关于使用Python和MySQL编写文档控制软件的建议
- 22. 关于如何显示需要执行计算的一行数据的建议
- 23. 关于网络地址转换(NAT)?
- 24. 需要关于网络爬虫软件帮助建立会计师数据库的建议
- 25. 需要PHP网格建议
- 26. 需要关于MongoDB Schema for Chat App的建议。嵌入式和相关文档
- 27. 需要关于如何在iPhone上缓存文本数据的建议
- 28. 我需要关于WCF和多层的建议
- 29. 需要关于mysql规范化和php类结构的建议
- 30. 我需要一些关于德鲁伊和metamarkets的建议
我想这样的东西可以工作;但是,我们的客户习惯在查看文档时看到突出显示的搜索条件。另外它会破坏从文档复制+粘贴的能力。当然,无论我最终选择何种解决方案,这都可能成为问题。 – joshg 2012-03-23 19:57:11
在http://www.jpedal.org/html_index.php – 2012-03-24 18:07:55
@mark处,还有一个基于JPedal的商业PDF到HTML5转换器。你知道有谁真的使用过它吗?这个价格非常陡峭,但如果它确实运作良好,我的老板可能会为此付出代价。 – joshg 2012-03-27 21:02:52