2010-07-01 73 views
3

我目前使用urllib2从网站检索和解析页面。然而,它们中有很多(超过1000个),并且按顺序处理它们的速度非常缓慢。Python 2.6:与urllib2并行解析

我希望有一种方法可以以并行方式检索和解析页面。如果这是一个好主意,是否有可能,我该怎么做?

另外,什么是“合理”的值并行处理的页面数量(我不想在服务器上施加太多的压力或因为我使用太多的连接而被禁止)?

谢谢!

回答

3

您始终可以使用线程(即在单独的线程中运行每个下载)。对于大量的人来说,这可能会占用太多的资源,在这种情况下,我建议你看看gevent,特别是this example,这可能正是你需要的。

(从gevent.org:“GEVENT是使用greenlet提供关于libevent的事件循环顶部的高层次的同步API基于协同程序的Python库联网”)

+0

这看起来不错,我会检查出来。谢谢! – 2010-07-01 12:39:25