2
在这几天,我试图抓取雅虎答案网站,以采取在这category的问题。 我使用Scrapy来抓取动态网站的句柄,但使用Selenium。雅虎回答这真的是“无限滚动”页面?蟒蛇
经过许多尝试或方法,我每次获得不同的结果,第一次我想滚动所有的网站使用JS和当标签“加载...”消失停止向下滚动。 但我意识到加载停在不同的时刻。 其实我的代码是这样的:
time.sleep(5)
wait = WebDriverWait(self.driver, 10)
while True:
self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(randint(4,6))
self.driver.execute_script("window.scrollBy(0, -100000);")
time.sleep(randint(1,3))
try:
wait.until(EC.visibility_of_element_located((By.ID, "ya-infinite-scroll-message")))
except TimeoutException:
self.driver.get_screenshot_as_file("test_.jpg")
break
,我可以得到很多的问题,但都没有,每次刮问题的数量变化。
您从中得到了多少个问题? – RedVelvet
我发现最多2093年? – SIslam
我发现约1200-1400 – RedVelvet