我正在编写一个程序,该程序将帮助我找出链接到我的竞争对手的网站。为了做到这一点,我正在编写一个解析HTML文件的程序,并将生成2个列表:内部链接和外部链接。如何使用.NET RegEx解析HTML文件并找到1.外部链接。 2.内部链接
我将使用内部链接来进一步抓取网站,而外部链接实际上是我正在寻找的。
如何使用.NET RegEx解析HTML文件并找到1.外部链接。 2.内部链接。
在此先感谢, Eytan Levit。
编辑:在回答这个问题 - 不 - 我不受正则表达式,我可以使用任何其他的想法。
你必然的正则表达式,或第三方DOM的解析库可太习惯? – 2009-07-01 15:36:38