Q

网络扫描软件的原理是什么？

network-scan

2011-02-08 138 views 0 likes

0

它如何自动扫描所有可用页面？网络扫描软件的原理是什么？

我能想到的一种方法是从主页递归地扫描它。

但它无法扫描出后端CMS。

那么这些扫描工具如何工作呢？

2011-02-08 jxu

+1

http://en.wikipedia.org/wiki/Web_crawler – 2011-02-08 06:55:04

A

回答

1

愚蠢的网络爬虫：

开始通过创建一个数组来存储链接，并把一个URL中有你自己。创建第二个空数组来存储访问的URL。现在开始一个执行以下操作的程序。

读取和删除第一条连接阵列
下载网页在那个URL
解析HTML的链接标签，添加发现连接阵列
所有链接的网页URL添加到访问网址阵列
转到1

如果您认为在网络上的每一页可达按照随机链接（可能是数十亿）的一些数，那么只需重复步骤1到4最终将导致下载整个网络。由于网络实际上并不是完全连接的图形，因此您必须从不同的点开始流程才能最终到达每个页面。

2011-02-08 06:58:17

+0

这就是我上面提到的递归方式，但它将无法抓取永不链接的页面。 – jxu 2011-02-08 06:59:36

相关问题