2013-04-11 147 views
0

我试图让一个网站的网址,干净的表示得到一个干净的XML表示,所以 我可以把“HTML”内如何从一个网站的网址

org.w3c.dom.Document 

能够用xpath进行进一步的处理等等。

我能得到什么,当我试图把HTML文档里面是:

org.xml.sax.SAXParseException:Elementtyp “链接” 弄乱麻省理工学院的马克entsprechenden ENDTAG “” beendet werden

这意味着,“链接”必须关闭,但本网站并非如此。

那么,可能是正确的做法? 我应该“修复”文件并更换错误吗?

我试过net.sourceforge.htmlcleaner,但它没有弄清楚,如何 '修复'的错误。

任何帮助?

问候, 霍尔格

+1

这取决于HTML清理程序对HTML的作用。有效的HTML不一定是有效的XML - http://stackoverflow.com/questions/10473875/converting-html-to-xml。 – 2013-04-11 09:11:47

回答

0

HTML通常不是XML,所以文件无法处理它。您需要一个特殊的库,如JSoup

+1

我不认为JSoup生成org.w3c.dom兼容的文档,它们不能用XPath进行分析。 – 2013-04-11 09:31:04

+0

这也是对的,但我可以和dom元素一起生活 – ITR 2013-04-11 09:47:41

+0

@GuillaumeSerre:是的,但是jsoup支持jquery-like选择器,它可能更适合使用html。 – 2013-04-11 10:15:48