我想将Htmlpage转换为pdf。但HtmlPage有很多标签还没有关闭:将结束标记添加到HtmlElement(HtmlUnit)
<hr>
<br>
因此我无法创建PDF。如何通过在Java上使用HtmlUnit来关闭这些标签。我要的是:
<hr />
<br />
感谢
我想将Htmlpage转换为pdf。但HtmlPage有很多标签还没有关闭:将结束标记添加到HtmlElement(HtmlUnit)
<hr>
<br>
因此我无法创建PDF。如何通过在Java上使用HtmlUnit来关闭这些标签。我要的是:
<hr />
<br />
感谢
感谢答案,我错了。问题不在于这些html标签。由于我想转换的htmlpage包含非法的xml字符,因此我无法将其转换。
我找到了使用Xerces库的XMLChar.isValid方法的解决方案。 此外,我不得不删除所有脚本和风格与此代码htmlpage的标签:
final DomNodeList<HtmlElement> scriptElements = html.getElementsByTagName("script");
if (!scriptElements.isEmpty()){
for (HtmlElement scriptElement : scriptElements){
scriptElement.removeAllChildren();
}
}
其实这些标签不应该有结束标签。在此请看:
权,但他们需要的空标签在XHTML:'
',''
– 2011-12-28 13:11:33