2008-12-11 80 views
6

开源实现将是首选。有没有任何Java库将文档从PDF转换为HTML?

+3

我想知道一个解决方案了。 PDFBox的是能够做到这一点(http://java.dzone.com/articles/converting-pdf-html-using?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+javalobby%2Ffrontpage+%28Javalobby+%2F+Java+Zone%29 ),但方式非常有限。 – Alp 2011-05-02 11:15:21

回答

2

显然,这不是一件容易的事,PDF格式比HTML的一个更丰富(加上你必须提取图像和链接它们,等)。
简单的文本提取更简单(尽管不是微不足道的...)。
我看到你的问题类似的问题的侧边栏:Converting PDF to HTML with Python指向库(poppler的,这显然是用C++编写,或许可以用JNI/JNA访问)和一个相关的问题能够提供更多的答案。