2012-04-29 119 views
0

我的主页有链接到页面a.html和b.html。在与这两页相同的目录中,我有页c.htmld.html其中未链接到任何其他页网络爬虫是否仅依靠主页上的链接来进行爬网?

我的问题是webcrawlers还索引c.html和d.html只是因为他们在目录中吗?或者他们是否只遵循从主页开始的链接并仅索引主页和页面a和b?谢谢。

回答

2

网络爬虫只知道大概的联系,因此,如果世界上没有人有一个链接到网页c.html和d.html,那么履带会发现它们的可能性是非常接近于0

让我们看到履带会如何找到那些:

  1. 您的主页仅指向a.html和b.html,但如果这些网页有链接到C/d.html,那么crawler将最终他们。
  2. 如果以上内容不正确,但是您已经给某人链接了c/d.html并且他们在网上发布了某些网站上的链接,那么一个爬虫将会最终找到它们。
  3. 如果您有一个网站地图,那么爬虫最终可能会找到它们。

这假设爬行程序是“好”的,它的爬行时间足够长,可以到达包含指向c/d.html页面的链接的页面。

2

大多数网络抓取工具(特别是Google的抓取工具)都是专有程序,所以您无法确定它们是如何在细节中工作的。

而且网络爬虫的细节非常复杂。传闻谷歌的抓取工具(和索引器)是一个超过700兆字节的二进制可执行文件(在GCC峰会上,谷歌人称他们正在编译这种大小的程序,而且我猜测它是它们的抓取工具)。

理论上爬虫确实遵循链接。但你不掌握他们。例如,即使您的主网页没有指向它,某些公共邮件存档(甚至是Google的Google帐户)也可能指向您的c.html

+0

这是真的。即使我看到谷歌机器人抓取了一些没有href标签的url,例如我通过简单的文本在我的页面中放置了一个虚拟链接地址,并且令人难以置信,google bot随后出现! – Vahid 2012-04-29 06:34:57