即时构建大型网络爬虫,当在位于互联网服务器场中的专用Web服务器上运行网页时爬网时,有多少实例是最佳实例。爬虫实例
Q
爬虫实例
0
A
回答
3
spare_memory_on_machine/memory_footprint_of_crawler_process * 0.95
4
要进行大规模的履带你将不得不处理像一些问题:
•不可能性,以保持信息都在一个数据库中。
•RAM不足,无法应付庞大的指数(S)
•多线程性能和并发
•履带式陷阱(通过改变网址,日历,会议IDS创建无限循环......)和重复内容。
•抓取从多台计算机
•格式不正确的HTML代码
•从服务器
•数据库不压缩恒HTTP错误,至极使你的空间约8倍大的需求。
•重新抓取例程和优先级。
•使用压缩请求(Deflate/gzip)(适用于任何类型的搜寻器)。
和一些重要的事情
•尊重robots.txt的
•并在每个请求不受阻Web服务器履带延迟。
最佳的线程配置将取决于您的代码..我用.net运行100个进程。我建议您使用计划类来避免不必要的开放线程。
PS。如果您使用5个线程,则需要多年时间才能实现“大规模”网络爬行。
相关问题
- 1. Python爬虫 - html.fromstring
- 2. 网络爬虫
- 3. 做爬虫解码html实体?
- 4. 开源C++爬虫?
- 5. php爬虫检测
- 6. 重定向爬虫
- 7. PHP网络爬虫
- 8. java网络爬虫
- 9. 爬虫vs刮板
- 10. Python网络爬虫
- 11. 需要网络爬虫
- 12. 自动网络爬虫
- 13. 网络爬虫,反馈?
- 14. 网络爬虫不打印
- 15. TYPO3爬虫索引内容
- 16. 识别搜索爬虫
- 17. python中的Facebook爬虫
- 18. 网络爬虫应用
- 19. Python爬虫的问题
- 20. 单页网页爬虫PHP
- 21. 网络爬虫提取
- 22. C#web和ftp爬虫库
- 23. 。基于网络的网络爬虫示例
- 24. Ruby中的Web爬虫:如何实现最佳性能?
- 25. Python简单的网络爬虫错误(无限循环爬行)
- 26. 针对windows的增量爬网支持的网络爬虫
- 27. scrapy爬虫在爬行时显示错误
- 28. 如何在asp.net后端运行爬虫?
- 29. 蟒蛇爬虫不适用于asyncio
- 30. 是一个网络爬虫更合适?
你要抓取*网页吗?还是内联网?一旦?每两分钟?出于什么目的?你的问题太模糊,不能认真回答。请详细说明一下。 – balpha 2009-06-21 10:03:01