如何爬虫或蜘蛛在搜索引擎的工作原理搜索引擎中的蜘蛛如何工作?
1
A
回答
0
如何任何蜘蛛在Web上开始它的旅行?通常的起点是大量使用的服务器和非常流行的页面列表。蜘蛛将从一个受欢迎的网站开始,将其网页上的文字编入索引,并追踪该网站中的每个链接。通过这种方式,蜘蛛系统迅速开始传播,遍布网络最广泛使用的部分。
3
具体来说,你至少需要以下一些部分组成:
- 配置:要告诉爬虫如何,何时何地连接到文件;以及如何连接到底层数据库/索引系统。
- 连接器:这将创建连接到网页或磁盘共享或任何东西,真的。
- 内存:抓取工具必须知道已经访问过的网页。这通常存储在索引中,但取决于实现和需求。该内容也用于重复数据删除和更新验证目的。
- 解析器/转换器:需要能够理解文档的内容并提取元数据。将提取的数据转换为底层数据库系统可用的格式。
- 索引器:将数据和元数据推送到数据库/索引系统。
- 调度程序:计划抓取工具的运行。可能需要同时处理大量运行的爬虫,并考虑当前正在执行的操作。
- 连接算法:当解析器找到与其他文档的链接时,需要分析何时,如何以及何处必须建立下一个连接。另外,一些索引算法考虑了页面连接图,因此可能需要存储和分类与之相关的信息。
- 策略管理:某些站点要求抓取工具遵守某些策略(例如robots.txt)。
- 安全/用户管理:爬虫程序可能需要能够在某个系统中登录才能访问数据。
- 内容编辑/执行:爬虫可能需要执行某些内容才能访问内容,比如applets/plugins。
从不同的起点,速度,内存使用和使用大量的线程/进程一起工作时,爬行程序需要高效。 I/O是关键。
3
万维网基本上是一个网络文档,图像,多媒体文件等的连接有向图。图的每个节点都是网页的组成部分,例如,一个网页由图像,文本,视频等,所有这些都链接在一起。抓取工具使用广度优先搜索使用网页中的链接遍历图形。
- 爬网程序最初以一个(或多个)种子点开始。
- 它扫描网页并探索该页面中的链接。
- 该过程一直持续到探索所有图形为止(可以使用某些预定义约束来限制搜索深度)。
相关问题
- 1. 如何向搜索引擎蜘蛛提供区域内容?
- 2. 在Django中,为搜索引擎蜘蛛禁用@login_required
- 3. Ruby网络蜘蛛和搜索引擎库
- 4. 搜索引擎优化 - 重定向跳计数网站蜘蛛工具
- 5. Bit Torrent搜索引擎如何工作?
- 6. MultiLanguage搜索引擎如何工作
- 7. 做搜索引擎机器人 - 爬虫 - 蜘蛛 - 等有他们的JavaScript?
- 8. 蜘蛛和索引器的好语言
- 9. Nutch,蜘蛛,索引网页它已经在它的索引?
- 10. Ruby on Rails,如何确定请求是由机器人还是搜索引擎蜘蛛做出的?
- 11. 如何喂蜘蛛蜘蛛爬行内的链接?
- 12. enable_star在SPHINX搜索引擎不工作
- 13. 库MySQLi/PHP搜索引擎不工作
- 14. 如果我通过JavaScript在页面中添加内容,它将被搜索引擎蜘蛛抓取
- 15. 如何制作搜索引擎?
- 16. 如何制作“频繁搜索”引擎?
- 17. 如果搜索引擎蜘蛛正在敲击我的网站,我该怎么办?
- 18. 如何绘制蜘蛛网
- 19. Android电子市场搜索引擎是如何工作的?
- 20. flipkart,snapdeal,amazon的搜索引擎如何工作?
- 21. 防止索引目录中的流氓蜘蛛
- 22. 搜索引擎中的倒排索引
- 23. 搜索引擎机器人如何工作?
- 24. vb.net中的搜索引擎
- 25. 可以阻止旧浏览器访问一个网站块搜索引擎蜘蛛的一段代码?
- 26. Python的scrapy蜘蛛
- 27. Scrapy DOMAIN_NAME的蜘蛛
- 28. scrapy中的连环蜘蛛
- 29. 在Python中制作搜索引擎django
- 30. 带搜索引擎的PHP搜索引擎
http://en.wikipedia.org/wiki/Web_crawler – SilentGhost 2010-05-05 11:34:55