2010-05-05 67 views

回答

0

How Stuff Works

如何任何蜘蛛在Web上开始它的旅行?通常的起点是大量使用的服务器和非常流行的页面列表。蜘蛛将从一个受欢迎的网站开始,将其网页上的文字编入索引,并追踪该网站中的每个链接。通过这种方式,蜘蛛系统迅速开始传播,遍布网络最广泛使用的部分。

3

具体来说,你至少需要以下一些部分组成:

  • 配置:要告诉爬虫如何,何时何地连接到文件;以及如何连接到底层数据库/索引系统。
  • 连接器:这将创建连接到网页或磁盘共享或任何东西,真的。
  • 内存:抓取工具必须知道已经访问过的网页。这通常存储在索引中,但取决于实现和需求。该内容也用于重复数据删除和更新验证目的。
  • 解析器/转换器:需要能够理解文档的内容并提取元数据。将提取的数据转换为底层数据库系统可用的格式。
  • 索引器:将数据和元数据推送到数据库/索引系统。
  • 调度程序:计划抓取工具的运行。可能需要同时处理大量运行的爬虫,并考虑当前正在执行的操作。
  • 连接算法:当解析器找到与其他文档的链接时,需要分析何时,如何以及何处必须建立下一个连接。另外,一些索引算法考虑了页面连接图,因此可能需要存储和分类与之相关的信息。
  • 策略管理:某些站点要求抓取工具遵守某些策略(例如robots.txt)。
  • 安全/用户管理:爬虫程序可能需要能够在某个系统中登录才能访问数据。
  • 内容编辑/执行:爬虫可能需要执行某些内容才能访问内容,比如applets/plugins。

从不同的起点,速度,内存使用和使用大量的线程/进程一起工作时,爬行程序需要高效。 I/O是关键。

3

万维网基本上是一个网络文档,图像,多媒体文件等的连接有向图。图的每个节点都是网页的组成部分,例如,一个网页由图像,文本,视频等,所有这些都链接在一起。抓取工具使用广度优先搜索使用网页中的链接遍历图形。

  1. 爬网程序最初以一个(或多个)种子点开始。
  2. 它扫描网页并探索该页面中的链接。
  3. 该过程一直持续到探索所有图形为止(可以使用某些预定义约束来限制搜索深度)。