爬虫实例

即时构建大型网络爬虫，当在位于互联网服务器场中的专用Web服务器上运行网页时爬网时，有多少实例是最佳实例。爬虫实例

2009-06-21 kar

你要抓取*网页吗？还是内联网？一旦？每两分钟？出于什么目的？你的问题太模糊，不能认真回答。请详细说明一下。 – balpha 2009-06-21 10:03:01

spare_memory_on_machine/memory_footprint_of_crawler_process * 0.95

2009-06-21 10:06:13 chaos

要进行大规模的履带你将不得不处理像一些问题：

•不可能性，以保持信息都在一个数据库中。

•RAM不足，无法应付庞大的指数（S）

•多线程性能和并发

•履带式陷阱（通过改变网址，日历，会议IDS创建无限循环......）和重复内容。

•抓取从多台计算机

•格式不正确的HTML代码

•从服务器

•数据库不压缩恒HTTP错误，至极使你的空间约8倍大的需求。

•重新抓取例程和优先级。

•使用压缩请求（Deflate/gzip）（适用于任何类型的搜寻器）。

和一些重要的事情

•尊重robots.txt的

•并在每个请求不受阻Web服务器履带延迟。

最佳的线程配置将取决于您的代码..我用.net运行100个进程。我建议您使用计划类来避免不必要的开放线程。

PS。如果您使用5个线程，则需要多年时间才能实现“大规模”网络爬行。

2011-12-19 14:17:12 lexmooze

回答