2012-04-24 58 views
3

我正在寻找可以在URL中传递的最佳Java库,并让它创建网页看起来像的图像,浏览器。我尝试了flyingsaucer,但它似乎几乎每个网页都会打破它 - 它甚至不会渲染www.google.com或yahoo.com - 我可以渲染的唯一网站是www.w3c.org!以编程方式将HTML页面转换为图像/ PDF的最佳Java库

有关更好的使用工具或可能允许飞碟在xhtml中更加松懈的想法是否接受?

回答

5

飞碟在许多页面上失败,因为它只允许xhtml(见手册)。

但是你可以使用一些html库来“清理”你的输入然后使用FS。

Webesite - > “清洁” - >飞碟

一些优秀且免费的库有:

  1. JSoup(个人推荐)
  2. HtmlCleaner
  3. JTidy(有时更严格比需要的)
  4. Jericho HTML
0

关于HTML爬行:

使用URL从java库。有很多这方面的例子。

约PDF转换:

如果你正在使用Spring框架,你可以通过iText的API使用AbstractPdfView类。 this是我最喜欢的例子。我认为你可以很容易地使用它。

约图像转换:

我推荐这一个:http://code.google.com/p/java-html2image/

总:通过URL→

阅读HTML通过iText的或Java的html2image转换。我强烈建议你自己动手,不要把它留给某个图书馆。

相关问题