搜索引擎中的蜘蛛如何工作？

如何爬虫或蜘蛛在搜索引擎的工作原理搜索引擎中的蜘蛛如何工作？

http://en.wikipedia.org/wiki/Web_crawler – SilentGhost 2010-05-05 11:34:55

如何任何蜘蛛在Web上开始它的旅行？通常的起点是大量使用的服务器和非常流行的页面列表。蜘蛛将从一个受欢迎的网站开始，将其网页上的文字编入索引，并追踪该网站中的每个链接。通过这种方式，蜘蛛系统迅速开始传播，遍布网络最广泛使用的部分。

2010-05-05 11:38:21 aioobe

具体来说，你至少需要以下一些部分组成：

配置：要告诉爬虫如何，何时何地连接到文件;以及如何连接到底层数据库/索引系统。
连接器：这将创建连接到网页或磁盘共享或任何东西，真的。
内存：抓取工具必须知道已经访问过的网页。这通常存储在索引中，但取决于实现和需求。该内容也用于重复数据删除和更新验证目的。
解析器/转换器：需要能够理解文档的内容并提取元数据。将提取的数据转换为底层数据库系统可用的格式。
索引器：将数据和元数据推送到数据库/索引系统。
调度程序：计划抓取工具的运行。可能需要同时处理大量运行的爬虫，并考虑当前正在执行的操作。
连接算法：当解析器找到与其他文档的链接时，需要分析何时，如何以及何处必须建立下一个连接。另外，一些索引算法考虑了页面连接图，因此可能需要存储和分类与之相关的信息。
策略管理：某些站点要求抓取工具遵守某些策略（例如robots.txt）。
安全/用户管理：爬虫程序可能需要能够在某个系统中登录才能访问数据。
内容编辑/执行：爬虫可能需要执行某些内容才能访问内容，比如applets/plugins。

从不同的起点，速度，内存使用和使用大量的线程/进程一起工作时，爬行程序需要高效。 I/O是关键。

2010-05-19 12:09:51 Loki

万维网基本上是一个网络文档，图像，多媒体文件等的连接有向图。图的每个节点都是网页的组成部分，例如，一个网页由图像，文本，视频等，所有这些都链接在一起。抓取工具使用广度优先搜索使用网页中的链接遍历图形。

2012-12-09 13:04:05 alienCoder

回答