2010-01-27 82 views
0

(我已经看到了类似的问题,但我认为他们没有满足我的特定需求,所以......)Java库,用于分析HTML

我想知道是否有一个Java库,用于分析现实世界(阅读:不完整,格式不正确)的HTML。通过分析,我的意思的东西,如:

  • 在HTML块
  • 找出最突出的颜色改变这种颜色到其他颜色(因此,必须支持HTML的修改以及)
  • 修剪掉不需要的标签
  • 固定了HTML导致一个良好的HTML片段中最后两个

的部分由库,如杰里科,和jTidy完成。在这些之上的'插件'会很棒。

在此先感谢!

+0

好吧,经过一些分析,似乎我在上面的第一个问题中要求的是不是现成的:( 必须考虑一些光滑的算法... – ragebiswas 2010-01-28 10:38:14

回答

1

查看JTidy,Java端口号为HTML Tidy。它将根据您选择的选项来修复非格式良好的HTML并进行清理。

你需要别的东西来换色。

+0

谢谢。我知道jTidy 。我正在寻找一些可以对HTML片段进行更多语义分析的东西 – ragebiswas 2010-01-27 14:03:57

2

那么我会先把它整理成有效的XML,然后使用XSLT做一个有条件的深层复制,在那里我会做最突出的颜色/修剪/你需要的任何处理。

0

也许你会发现在this list东西(尝试TagSoup,NekoHTML,VietSpider的HTMLParser)。