当在一个循环中刮多个网站,我注意到存在之间的速度相当大的差异,Python网络刮:睡眠和请求之间的差异(页面,超时= X)
sleep(10)
response = requests.get(url)
和,
response = requests.get(url, timeout=10)
也就是说,timeout
要快得多。
此外,对于这两种设置,我希望在请求下一页之前每页至少10秒的刮取时间,但事实并非如此。
- 为什么速度有这样的差异?
- 为什么每页的抓取时间少于10秒?
我现在使用多处理,但我认为要记住上述保留以及非多处理。