2011-02-08 138 views
0

它如何自动扫描所有可用页面?网络扫描软件的原理是什么?

我能想到的一种方法是从主页递归地扫描它。

但它无法扫描出后端CMS。

那么这些扫描工具如何工作呢?

+1

http://en.wikipedia.org/wiki/Web_crawler – 2011-02-08 06:55:04

回答

1

愚蠢的网络爬虫:

开始通过创建一个数组来存储链接,并把一个URL中有你自己。创建第二个空数组来存储访问的URL。现在开始一个执行以下操作的程序。

  1. 读取和删除第一条连接阵列
  2. 下载网页在那个URL
  3. 解析HTML的链接标签,添加发现连接阵列
  4. 所有链接的网页URL添加到访问网址阵列
  5. 转到1

如果您认为在网络上的每一页可达按照随机链接(可能是数十亿)的一些数,那么只需重复步骤1到4最终将导致下载整个网络。由于网络实际上并不是完全连接的图形,因此您必须从不同的点开始流程才能最终到达每个页面。

+0

这就是我上面提到的递归方式,但它将无法抓取永不链接的页面。 – jxu 2011-02-08 06:59:36