2013-03-08 25 views
4

解析网站时出现此错误。 错误:'实体“ContentType”的声明必须以'>'结尾。' 或输入类型必须关闭如何处理来自Web的无效HTML文档,需要正确的HTML库

+0

1:修复输入,2修复库,以便它可以处理incorect html – 2013-03-08 10:19:05

+0

试试[jsoup](http://jsoup.org/),它可以处理brocken html。 – A4L 2013-03-08 10:19:40

回答

2

你认为是JTidy

JTidy is a Java port of HTML Tidy, a HTML syntax checker and pretty printer. Like its non-Java cousin, JTidy can be used as a tool for cleaning up malformed and faulty HTML. In addition, JTidy provides a DOM parser for real-world HTML.

显然在某个时候会与HTML挣扎取决于它是多么糟糕形成,但你会发现这对你的作品。

相关问题