网络爬虫是否仅依靠主页上的链接来进行爬网？

我的主页有链接到页面a.html和b.html。在与这两页相同的目录中，我有页c.html和d.html其中未链接到任何其他页。网络爬虫是否仅依靠主页上的链接来进行爬网？

我的问题是webcrawlers还索引c.html和d.html只是因为他们在目录中吗？或者他们是否只遵循从主页开始的链接并仅索引主页和页面a和b？谢谢。

2012-04-29 RJIGO

网络爬虫只知道大概的联系，因此，如果世界上没有人有一个链接到网页c.html和d.html，那么履带会发现它们的可能性是非常接近于0

让我们看到履带会如何找到那些：

这假设爬行程序是“好”的，它的爬行时间足够长，可以到达包含指向c/d.html页面的链接的页面。

2012-04-29 06:30:20 Kiril

大多数网络抓取工具（特别是Google的抓取工具）都是专有程序，所以您无法确定它们是如何在细节中工作的。

而且网络爬虫的细节非常复杂。传闻谷歌的抓取工具（和索引器）是一个超过700兆字节的二进制可执行文件（在GCC峰会上，谷歌人称他们正在编译这种大小的程序，而且我猜测它是它们的抓取工具）。

理论上爬虫确实遵循链接。但你不掌握他们。例如，即使您的主网页没有指向它，某些公共邮件存档（甚至是Google的Google帐户）也可能指向您的c.html。

2012-04-29 06:20:51

这是真的。即使我看到谷歌机器人抓取了一些没有href标签的url，例如我通过简单的文本在我的页面中放置了一个虚拟链接地址，并且令人难以置信，google bot随后出现！ – Vahid 2012-04-29 06:34:57

回答