如何从一个网站的网址

我试图让一个网站的网址，干净的表示得到一个干净的XML表示，所以我可以把“HTML”内如何从一个网站的网址

org.w3c.dom.Document

能够用xpath进行进一步的处理等等。

我能得到什么，当我试图把HTML文档里面是：

org.xml.sax.SAXParseException：Elementtyp “链接” 弄乱麻省理工学院的马克entsprechenden ENDTAG “” beendet werden

这意味着，“链接”必须关闭，但本网站并非如此。

那么，可能是正确的做法？我应该“修复”文件并更换错误吗？

我试过net.sourceforge.htmlcleaner，但它没有弄清楚，如何 '修复'的错误。

任何帮助？

问候，霍尔格

2013-04-11 ITR

这取决于HTML清理程序对HTML的作用。有效的HTML不一定是有效的XML - http://stackoverflow.com/questions/10473875/converting-html-to-xml。 – 2013-04-11 09:11:47

HTML通常不是XML，所以文件无法处理它。您需要一个特殊的库，如JSoup

2013-04-11 09:13:55

我不认为JSoup生成org.w3c.dom兼容的文档，它们不能用XPath进行分析。 – 2013-04-11 09:31:04

这也是对的，但我可以和dom元素一起生活 – ITR 2013-04-11 09:47:41

@GuillaumeSerre：是的，但是jsoup支持jquery-like选择器，它可能更适合使用html。 – 2013-04-11 10:15:48

作品非常适合我

2013-04-11 09:11:53

回答