2016-06-07 116 views
-1

今天我有一个问题,如果谷歌爬虫如何在爬行过程中通过互联网找到每一页,请分享我的答案,如果你有。谷歌爬虫如何通过互联网找到每一个页面

查看下面的链接,如果你需要更多的话。

HOW SEARCH WORKS

在此先感谢!!!!

+0

让我明白这一点:您已阅读过您分享的链接中的信息,并观看了它提供的所有视频,但您仍不明白它的工作原理?我认为我们不能帮助你。另外,这个问题似乎并不是关于程序设计,或者是太广泛。 – paddy

+0

是的,但没有关于是否从零开始的规范如何在互联网上完成对数万万文档的爬行,而且这个问题不是关于编程,所以我不在这篇文章中分配编程语言标记......谢谢.. 。 –

+0

[抓取查找信息]的第二段[抓取和索引](https://www.google.co.in/insidesearch/howsearchworks/crawling-indexing.html)页面:_抓取过程以网站所有者*提供的过去抓取*和[站点地图](https://support.google.com/webmasters/answer/156184?hl=en)的网址列表开头。当我们的抓取工具访问这些网站时,他们会寻找其他网页访问的链接... _ – paddy

回答

0

碰巧是存储缓存数据的过程,在缓存数据中,搜索引擎查找超链接,可能是文本或图像超链接。然后,它找到一个后,打开该页面缓存并开始寻找链接。这个过程继续下去,直到找不到更多的链接。

因此,在这个超链接的长链中,几乎可以肯定的是,大部分互联网都包含在内。但是,这并不意味着它已经抓取了一切。 由于缺乏链接,许多新网站都被排除在外。 以及一些网站不会被抓取,因为它们不打算被发现。

+0

谢谢@Shashikant_这个过程是从一个特定页面开始的,它抓取了大部分互联网页面? ? –

+0

是的。但是,也有系统可以手动请求爬网或优先考虑爬网,如果您有新网站,则需要手动提交页面以加快爬网过程,或者搜索引擎可能需要几天时间才能到达您的网页网站。 –

+0

感谢您的答案伙伴,这意味着抓取数据库的大小会随着时间的推移而增加,并在获得更好的抓取后得到更好的结果... –