2011-04-06 57 views
-1

我想使用C#或VB.NET来抓取网站。我希望抓取工具从网页中提取网址,并且还希望抓取工具能够跟踪网址,以便我可以从网站中提取所有网址。从整个网站中提取所有网址

我该怎么写呢?

+0

我这样做是在C++类之前,这是不是太难以实施。如果你喜欢,我所有的代码都是开源的。 – tjameson 2011-04-06 09:41:14

+0

这里有几个例子。 [网络爬虫1](http://www.codeproject.com/KB/IP/Crawler.aspx)[网络爬虫2](http://social.msdn.microsoft.com/forums/en-US/csharpgeneral/线程/ 8fecf702-04d9-4ee8-854e-0a31b3c01176) – Jethro 2011-04-06 09:38:20

+0

链接不适用于我... – tjameson 2011-04-06 09:40:16

回答

1

这种情况下的网站是什么?

本地虚拟目录? 一个静态网页? 动态网页托管在某个地方?

wget --mirror 

卷曲可以有选择这里了。

另外,请读了有关robots.txt开始刮净:)