我试图让一个网站的网址,干净的表示得到一个干净的XML表示,所以 我可以把“HTML”内如何从一个网站的网址
org.w3c.dom.Document
能够用xpath进行进一步的处理等等。
我能得到什么,当我试图把HTML文档里面是:
org.xml.sax.SAXParseException:Elementtyp “链接” 弄乱麻省理工学院的马克entsprechenden ENDTAG “” beendet werden
这意味着,“链接”必须关闭,但本网站并非如此。
那么,可能是正确的做法? 我应该“修复”文件并更换错误吗?
我试过net.sourceforge.htmlcleaner,但它没有弄清楚,如何 '修复'的错误。
任何帮助?
问候, 霍尔格
这取决于HTML清理程序对HTML的作用。有效的HTML不一定是有效的XML - http://stackoverflow.com/questions/10473875/converting-html-to-xml。 – 2013-04-11 09:11:47