我正在写一个需要load_url
函数执行对我下面的蜘蛛:有没有比urlgrabber更好的库来获取Python中的远程URL?
- 重试该URL,如果有错误是暂时性的,没有泄漏例外。
- 不会泄露内存或文件句柄
- 使用HTTP-保持活动的速度(可选)
URLGrabber表面上看起来不错,但它有麻烦。第一个问题是打开了太多的文件,但是我可以通过关闭keep-alive来解决此问题。然后,该功能开始提出socket.error: [Errno 104] Connection reset by peer
。该错误应该被捕获,并且可能会引发URLGrabberError。
我正在运行python 2.6.4。
有谁知道用URLGrabber修复这些问题的方法,或者知道另一种方法来完成我需要的不同库吗?
BeautifulSoup ftw? – Kimvais 2010-01-11 08:32:00
BeautifulSoup非常棒,但它用于解析HTML。我需要有关HTTP传输功能的帮助。类似于'urllib2.urlopen',但具有所描述的功能。 – Gattster 2010-01-11 08:33:55