2011-12-27 85 views

回答

0

感谢答案,我错了。问题不在于这些html标签。由于我想转换的htmlpage包含非法的xml字符,因此我无法将其转换。

我找到了使用Xerces库的XMLChar.isValid方法的解决方案。 此外,我不得不删除所有脚本风格与此代码htmlpage的标签:

final DomNodeList<HtmlElement> scriptElements = html.getElementsByTagName("script"); 
if (!scriptElements.isEmpty()){ 
    for (HtmlElement scriptElement : scriptElements){ 
     scriptElement.removeAllChildren(); 
    } 
} 
0

您可以使用HTML Tidy纠正HTML。 Java库是JTidy。 JTidy可以配置为生成XHTML。