0
A
回答
1
愚蠢的网络爬虫:
开始通过创建一个数组来存储链接,并把一个URL中有你自己。创建第二个空数组来存储访问的URL。现在开始一个执行以下操作的程序。
- 读取和删除第一条连接阵列
- 下载网页在那个URL
- 解析HTML的链接标签,添加发现连接阵列
- 所有链接的网页URL添加到访问网址阵列
- 转到1
如果您认为在网络上的每一页可达按照随机链接(可能是数十亿)的一些数,那么只需重复步骤1到4最终将导致下载整个网络。由于网络实际上并不是完全连接的图形,因此您必须从不同的点开始流程才能最终到达每个页面。
+0
这就是我上面提到的递归方式,但它将无法抓取永不链接的页面。 – jxu 2011-02-08 06:59:36
相关问题
- 1. 网络扫描中“偏差”的含义是什么?
- 2. Android扫描WiFi网络
- 3. 扫描网络链接
- 4. 扫描C类网络Python
- 5. 安卓扫描WiFi网络
- 6. 柯达i1120网络扫描
- 7. 什么是扫描代码:
- 8. 什么是PNO的区别扫描和WLAN预设扫描?
- 9. Seq Scan在桌上扫描的原因是什么?
- 10. 扫描iPhone SDK上的Wifi网络
- 11. 扫描YARA规则的整个网络
- 12. Raspberry Pi的Android和iOS扫描网络?
- 13. 什么是扫描:Java中的块?
- 14. 什么是视频最好的网络服务器软件?
- 15. Android网络中每秒扫描WiFi网络的问题
- 16. Java网络服务扫描器
- 17. 特定MAC地址扫描网络 - Android
- 18. R网络扫描数据集
- 19. 以AP模式扫描网络(hostapd)
- 20. Android:主动扫描WiFi网络
- 21. WIA +网络扫描仪,adf = 1页
- 22. Python扫描网络IP地址和mac
- 23. 如何在该区域扫描网络
- 24. 使用urllib进行网络扫描
- 25. 什么是“扫描工作副本”
- 26. 什么是代理网络服务?
- 27. 软件从图像扫描UPC代码
- 28. 恶意软件扫描功能
- 29. greenplum中的表扫描和seq扫描有什么区别
- 30. 使用android扫描网络存储中的文件MediaScannerConnection.scanFile
http://en.wikipedia.org/wiki/Web_crawler – 2011-02-08 06:55:04