(我已经看到了类似的问题,但我认为他们没有满足我的特定需求,所以......)Java库,用于分析HTML
我想知道是否有一个Java库,用于分析现实世界(阅读:不完整,格式不正确)的HTML。通过分析,我的意思的东西,如:
- 在HTML块
- 找出最突出的颜色改变这种颜色到其他颜色(因此,必须支持HTML的修改以及)
- 修剪掉不需要的标签
- 固定了HTML导致一个良好的HTML片段中最后两个
的部分由库,如杰里科,和jTidy完成。在这些之上的'插件'会很棒。
在此先感谢!
(我已经看到了类似的问题,但我认为他们没有满足我的特定需求,所以......)Java库,用于分析HTML
我想知道是否有一个Java库,用于分析现实世界(阅读:不完整,格式不正确)的HTML。通过分析,我的意思的东西,如:
的部分由库,如杰里科,和jTidy完成。在这些之上的'插件'会很棒。
在此先感谢!
你可能想看看TagSoup:
我会研究这个,谢谢! – ragebiswas 2010-01-27 14:04:48
没有一个库提供语义分析太多,但投票赞成,因为Tagsoup确实令人印象深刻 – ragebiswas 2010-03-15 11:57:02
谢谢。我知道jTidy 。我正在寻找一些可以对HTML片段进行更多语义分析的东西 – ragebiswas 2010-01-27 14:03:57
那么我会先把它整理成有效的XML,然后使用XSLT做一个有条件的深层复制,在那里我会做最突出的颜色/修剪/你需要的任何处理。
也许你会发现在this list东西(尝试TagSoup,NekoHTML,VietSpider的HTMLParser)。
好吧,经过一些分析,似乎我在上面的第一个问题中要求的是不是现成的:( 必须考虑一些光滑的算法... – ragebiswas 2010-01-28 10:38:14