回答
碰巧是存储缓存数据的过程,在缓存数据中,搜索引擎查找超链接,可能是文本或图像超链接。然后,它找到一个后,打开该页面缓存并开始寻找链接。这个过程继续下去,直到找不到更多的链接。
因此,在这个超链接的长链中,几乎可以肯定的是,大部分互联网都包含在内。但是,这并不意味着它已经抓取了一切。 由于缺乏链接,许多新网站都被排除在外。 以及一些网站不会被抓取,因为它们不打算被发现。
谢谢@Shashikant_这个过程是从一个特定页面开始的,它抓取了大部分互联网页面? ? –
是的。但是,也有系统可以手动请求爬网或优先考虑爬网,如果您有新网站,则需要手动提交页面以加快爬网过程,或者搜索引擎可能需要几天时间才能到达您的网页网站。 –
感谢您的答案伙伴,这意味着抓取数据库的大小会随着时间的推移而增加,并在获得更好的抓取后得到更好的结果... –
- 1. 自动登录谷歌网页爬虫
- 2. 单页网页爬虫PHP
- 3. 如何通过互联网
- 4. 谷歌爬虫和新闻股票
- 5. 谷歌爬虫时间限制
- 6. .htaccess和谷歌爬虫错误
- 7. 搜索引擎如何通过互联网找到网站
- 8. 网络爬虫
- 9. 无法通过谷歌浏览器访问互联网
- 10. 通过互联网
- 11. Appengine Apps VS谷歌机器人网络爬虫
- 12. 如何通过互联网找到pbmpak.c文件?
- 13. 是一个网络爬虫更合适?
- 14. 运行一个网站爬虫
- 15. 我可以告诉网站爬虫访问某个页面吗?
- 16. 如何使用htaccess检测谷歌,bing,yahoo爬虫
- 17. PHP网络爬虫
- 18. java网络爬虫
- 19. Python网络爬虫
- 20. PHP中的网页爬虫链接/页面逻辑
- 21. 可以通过谷歌索引的元索引由谷歌爬
- 22. 浏览互联网页面
- 23. 如何使用Perl LWP通过欢迎页面进行爬网?
- 24. 与Python 2.7.9分页网络爬虫
- 25. 使用python beautifulsoup进行网页爬虫
- 26. 减轻爬虫网页负载
- 27. 用飞镖写的网页爬虫
- 28. 如何在PHP中找到一个网站的谷歌网页排名?
- 29. python网站爬虫(多个网站)
- 30. yum通过互联网rhel5.1
让我明白这一点:您已阅读过您分享的链接中的信息,并观看了它提供的所有视频,但您仍不明白它的工作原理?我认为我们不能帮助你。另外,这个问题似乎并不是关于程序设计,或者是太广泛。 – paddy
是的,但没有关于是否从零开始的规范如何在互联网上完成对数万万文档的爬行,而且这个问题不是关于编程,所以我不在这篇文章中分配编程语言标记......谢谢.. 。 –
[抓取查找信息]的第二段[抓取和索引](https://www.google.co.in/insidesearch/howsearchworks/crawling-indexing.html)页面:_抓取过程以网站所有者*提供的过去抓取*和[站点地图](https://support.google.com/webmasters/answer/156184?hl=en)的网址列表开头。当我们的抓取工具访问这些网站时,他们会寻找其他网页访问的链接... _ – paddy