2009-06-21 74 views
0

即时构建大型网络爬虫,当在位于互联网服务器场中的专用Web服务器上运行网页时爬网时,有多少实例是最佳实例。爬虫实例

+3

你要抓取*网页吗?还是内联网?一旦?每两分钟?出于什么目的?你的问题太模糊,不能认真回答。请详细说明一下。 – balpha 2009-06-21 10:03:01

回答

3

spare_memory_on_machine/memory_footprint_of_crawler_process * 0.95

4

要进行大规模的履带你将不得不处理像一些问题:

•不可能性,以保持信息都在一个数据库中。

•RAM不足,无法应付庞大的指数(S)

•多线程性能和并发

•履带式陷阱(通过改变网址,日历,会议IDS创建无限循环......)和重复内容。

•抓取从多台计算机

•格式不正确的HTML代码

•从服务器

•数据库不压缩恒HTTP错误,至极使你的空间约8倍大的需求。

•重新抓取例程和优先级。

•使用压缩请求(Deflate/gzip)(适用于任何类型的搜寻器)。

和一些重要的事情

•尊重robots.txt的

•并在每个请求不受阻Web服务器履带延迟。

最佳的线程配置将取决于您的代码..我用.net运行100个进程。我建议您使用计划类来避免不必要的开放线程。

PS。如果您使用5个线程,则需要多年时间才能实现“大规模”网络爬行。