2013-10-07 38 views
-1

我想解析(窃取)来自HTML页面的大量信息。很多信息都是封闭的。像:用户名:1​​.age 2.gender 3.country等这是一个非常大的块,因此我的正则表达式模式是巨大的。我所有的正则表达式开发工具都有一行模式和文本文本框。这使得开发这些大型模式变得不可能。我想要做什么来开发大型正则表达式模式还是避免它们?如何在Java中创建大型正则表达式模式?

+5

HTML页面基本上是DOM结构。所以最好使用DOM解析器而不是正则表达式来获得所需的信息。 –

+0

我开始不关心有问题的问题和downvotes。这太令人讨厌了。无论如何,我得到了我的答案。嘿嘿〜 –

回答

2

HTML页面基本上是一个有效的DOM结构。所以最好使用DOM解析器而不是正则表达式来获得所需的信息。您可以探索JSoup:Java HTML解析器。

0

使用为HTML描述的解析规则从text/html资源生成DOM树。这些规则一起定义了所谓的HTML解析器。