2012-03-12 87 views
0

我想分析这些原因的HTML文件:解析Java中的HTML?

  1. 要标记之间的获取内容。例如,在一对para标签之间
  2. 查找break标签的发生
  3. 获取标签的属性。例如,要获取COLOR的值FONT COLOR =“red”>

我需要在Java中执行此操作。我知道Jehrico解析器的基础知识。我该怎么做?

+1

你的实际问题是什么? – Robert 2012-03-12 09:52:06

+0

我猜想有一些格式错误。你现在明白了这个问题吗? – 2012-03-12 10:09:17

回答

2

如果您要解析的HTML是XHTML,它也应该是有效的XML。 所以任何XML解析器都应该能够解析它。

如果你不能依靠这个,你可以搜索谷歌的HTML解析器的Java。

+0

在java中可以将HTML转换为XHTML吗? – 2012-03-12 10:06:47

+0

我认为JTidy应该可以胜任这项工作。 – 2012-03-12 10:15:19

10

没有。 Java的HTML解析器可用,如:

你也可能要经历的优点和使用各的利弊非常全面的讨论这些here

+2

我之前使用过jsoup,并且发现它对我需要做的事很好。 – Joeblackdev 2012-03-12 10:00:22

+0

好吧检查出来.. – 2012-03-12 10:07:02