2011-05-17 87 views
4

我一直在阅读如何实现一个履带。 我知道我们从访问URL列表(种子列表)开始。 访问所有这些URL并将访问页面中的所有链接添加到列表(边界)中。 那么我应该添加多少种子列表?我是否只需要添加尽可能多的网址,并希望他们能让我的网址与www上的网址一样多,并且确实能够确保我可以在其中获得所有其他网址? 还是有一些约定来做到这一点?我的意思是...像谷歌这样的搜索引擎做什么?爬虫种子列表包含什么?

回答

3

基本上,他们使用它们之间的连接(链接)制作了大量网站。搜索引擎知道的网站越多越好。这里唯一的问题是能够使这个列表有用。也就是说,网站可能性的大列表并不意味着搜索结果很好,因此您必须能够分辨每个网页中的重要内容。

但是根据你所拥有的信息处理能力,没有必要停下来。

这不是确保你会到达每一个网址,但它基本上是抓取网络的唯一实用方法。