2012-03-23 61 views
3

首先是一些背景:我的网站有两种基本类型的用户。拥有免费账户的用户可以上传文件,付费用户则可以搜索并查看或下载这些文件。上传者只能查看他们拥有的文件,而付费的客户则可以查看任何内容。目前我们只支持Word文档(.doc或.docx)和纯文本。我们使用JODConverter库在Word和html之间进行转换; html是存储在数据库中的内容以及向用户显示的内容。
我们也想转移到接受PDF格式,但我不确定什么是最好的方式去显示PDF或将其转换为HTML。我曾看到有人建议使用Google文档进行即时转换,但考虑到Google必须公开访问该文档,因此限制访问权似乎不可行 - 如果我错了,请纠正我的错误。它似乎只是在HTML(或类似PDFBox的东西)中使用标签会遇到同样的问题。
或者我们可能会忘记直接显示PDF文件并将它们转换为html,就像我们对Word文档所做的一样,但我还没有遇到过一个体面的库。到目前为止,我所看到的所有东西似乎都表明,它并不能完成转换工作,仅仅是Window和/或拥有巨额许可费用。 (如果许可费不超过每年100美元左右,许可费不一定是交易断路器)有谁知道一个好的Java转换库? (如果它确实做得很好,那么通过命令行运行的东西是可以接受的。)
最后一件事,我们计划向付费客户提供下载原始PDF文件的选项。这可能会很复杂吗?在构建过程的其余部分时,我应该记住什么?需要关于在网络上显示(和/或转换)pdf文件的建议

回答

1

而不是将PDF转换为HTML,这意味着某种OCR(识别文本),您可以通过像JPedal这样的工具将PDF转换为图像,并创建一个按顺序链接到这些图像的HTML页面。由于这是Java库,它不仅仅是Windows。

下载原始PDF文件不应该是一个问题。您必须将mimetype设置为标准PDF扩展名:application/pdf。

+1

我想这样的东西可以工作;但是,我们的客户习惯在查看文档时看到突出显示的搜索条件。另外它会破坏从文档复制+粘贴的能力。当然,无论我最终选择何种解决方案,这都可能成为问题。 – joshg 2012-03-23 19:57:11

+2

在http://www.jpedal.org/html_index.php – 2012-03-24 18:07:55

+1

@mark处,还有一个基于JPedal的商业PDF到HTML5转换器。你知道有谁真的使用过它吗?这个价格非常陡峭,但如果它确实运作良好,我的老板可能会为此付出代价。 – joshg 2012-03-27 21:02:52

相关问题