我的主页有链接到页面a.html和b.html。在与这两页相同的目录中,我有页c.html和d.html其中未链接到任何其他页。网络爬虫是否仅依靠主页上的链接来进行爬网?
我的问题是webcrawlers还索引c.html和d.html只是因为他们在目录中吗?或者他们是否只遵循从主页开始的链接并仅索引主页和页面a和b?谢谢。
我的主页有链接到页面a.html和b.html。在与这两页相同的目录中,我有页c.html和d.html其中未链接到任何其他页。网络爬虫是否仅依靠主页上的链接来进行爬网?
我的问题是webcrawlers还索引c.html和d.html只是因为他们在目录中吗?或者他们是否只遵循从主页开始的链接并仅索引主页和页面a和b?谢谢。
网络爬虫只知道大概的联系,因此,如果世界上没有人有一个链接到网页c.html和d.html,那么履带会发现它们的可能性是非常接近于0
让我们看到履带会如何找到那些:
这假设爬行程序是“好”的,它的爬行时间足够长,可以到达包含指向c/d.html页面的链接的页面。
大多数网络抓取工具(特别是Google的抓取工具)都是专有程序,所以您无法确定它们是如何在细节中工作的。
而且网络爬虫的细节非常复杂。传闻谷歌的抓取工具(和索引器)是一个超过700兆字节的二进制可执行文件(在GCC峰会上,谷歌人称他们正在编译这种大小的程序,而且我猜测它是它们的抓取工具)。
理论上爬虫确实遵循链接。但你不掌握他们。例如,即使您的主网页没有指向它,某些公共邮件存档(甚至是Google的Google帐户)也可能指向您的c.html
。
这是真的。即使我看到谷歌机器人抓取了一些没有href标签的url,例如我通过简单的文本在我的页面中放置了一个虚拟链接地址,并且令人难以置信,google bot随后出现! – Vahid 2012-04-29 06:34:57