2009-07-01 47 views
0

我正在编写一个程序,该程序将帮助我找出链接到我的竞争对手的网站。为了做到这一点,我正在编写一个解析HTML文件的程序,并将生成2个列表:内部链接和外部链接。如何使用.NET RegEx解析HTML文件并找到1.外部链接。 2.内部链接

我将使用内部链接来进一步抓取网站,而外部链接实际上是我正在寻找的。

如何使用.NET RegEx解析HTML文件并找到1.外部链接。 2.内部链接。

在此先感谢, Eytan Levit。

编辑:在回答这个问题 - 不 - 我不受正则表达式,我可以使用任何其他的想法。

+0

你必然的正则表达式,或第三方DOM的解析库可太习惯? – 2009-07-01 15:36:38

回答

8

请勿为此使用正则表达式。

使用类似HTML Agility Pack这是专门为解析HTML而设计的。 (他们的CodePlex主页上甚至有一个例子可以找到页面中的所有链接。)

+0

它是有效的(我的意思是有一天我不打算把我的应用程序变成一个真正的网络蜘蛛) – 2009-07-01 15:37:37

0

我曾经使用Regex进行Html解析,但速度真的很快,但现在有更好的选择可以降低开发成本。

尝试Linq To Html这是很好的,贝斯有关于它的伟大的职位,可以发现here