刮元素反应JS与BeautifulSoup

我想凑带班锚链接=“_ 1UoZlX”从这个特定页面的搜索结果 - https://www.flipkart.com/search?as=on&as-pos=1_1_ic_sam&as-show=on&otracker=start&page=6&q=samsung+mobiles&sid=tyy%2F4io 刮元素反应JS与BeautifulSoup

当我创建页面上的一汤，我意识到，搜索结果正在使用React JS呈现，因此我无法在页面源代码中找到它们（或在汤中）。

这里是我的代码

import requests 
from bs4 import BeautifulSoup 
from selenium import webdriver 
from selenium.webdriver.common.by import By 
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC 


listUrls = ['https://www.flipkart.com/search?as=on&as-pos=1_1_ic_sam&as-show=on&otracker=start&page=6&q=samsung+mobiles&sid=tyy%2F4iof'] 
PHANTOMJS_PATH = './phantomjs' 
browser = webdriver.PhantomJS(PHANTOMJS_PATH) 
urls=[] 

for url in listUrls: 
    browser.get(url) 
    wait = WebDriverWait(browser, 20) 
    wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "_1UoZlX"))) 
    soup = BeautifulSoup(browser.page_source,"html.parser") 
    results = soup.findAll('a',{'class':"_1UoZlX"}) 
    for result in results: 
     link = result["href"] 
     print link 
     urls.append(link) 
    print urls

这是我得到的错误。

Traceback (most recent call last): 
    File "fetch_urls.py", line 19, in <module> 
    wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "_1UoZlX"))) 
    File "/usr/local/lib/python2.7/site-packages/selenium/webdriver/support/wait.py", line 80, in until 
    raise TimeoutException(message, screen, stacktrace) 
selenium.common.exceptions.TimeoutException: Message: 
Screenshot: available via screen

有人在this answer提到，有使用硒来处理网页上的JavaScript的方式。有人可以详细说明吗？我做了一些谷歌搜索，但无法找到适用于这种特殊情况的方法。

来源

2016-12-26 dontpanic

您的代码没有问题，但是您正在抓取的网站 - 由于某些原因无法停止加载，这会阻止页面的解析以及您编写的后续代码。

我与维基百科试图确认相同：

from bs4 import BeautifulSoup 
from selenium import webdriver 
from selenium.webdriver.common.by import By 
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.support import expected_conditions as EC 

listUrls = ["https://en.wikipedia.org/wiki/List_of_state_and_union_territory_capitals_in_India"] 
# browser = webdriver.PhantomJS('/usr/local/bin/phantomjs') 
browser = webdriver.Chrome("./chromedriver") 
urls=[] 

for url in listUrls: 
    browser.get(url) 
    soup = BeautifulSoup(browser.page_source,"html.parser") 
    results = soup.findAll('a',{'class':"mw-redirect"}) 
    for result in results: 
     link = result["href"] 
     urls.append(link) 
    print urls

输出：

[u'/wiki/List_of_states_and_territories_of_India_by_area', u'/wiki/List_of_Indian_states_by_GDP_per_capita', u'/wiki/Constitutional_republic', u'/wiki/States_and_territories_of_India', u'/wiki/National_Capital_Territory_of_Delhi', u'/wiki/States_Reorganisation_Act', u'/wiki/High_Courts_of_India', u'/wiki/Delhi_NCT', u'/wiki/Bengaluru', u'/wiki/Madras', u'/wiki/Andhra_Pradesh_Capital_City', u'/wiki/States_and_territories_of_India', u'/wiki/Jammu_(city)']

附：为了调试目的，我使用chrome驱动程序来针对真正的chrome浏览器运行脚本。从https://chromedriver.storage.googleapis.com/index.html?path=2.27/下载铬驱动程序

来源

2016-12-28 07:44:14 codef0rmer

Selenium将呈现包含Javascript的页面。你的代码工作正常。它正在等待生成元素。在你的情况下，Selenium没有得到那个CSS元素。您提供的网址不是呈现结果页面。取而代之的是，它正在生成以下错误页面。

http://imgur.com/a/YwFyE

该页面不具有CSS类。你的代码正在等待那个特定的CSS元素。试试Firefox网络驱动程序，看看发生了什么。

来源

2016-12-27 16:37:33 Sriraman

我正在使用无头浏览器。可能是这个原因。将尝试与常规浏览器。 – dontpanic

无头浏览器应该可以正常工作。普通浏览器将很容易看到输出。问题修复后，您可以切换到常规浏览器。 Flipkart在大多数时间打开错误页面。您应该让脚本在发生时单击“重试”按钮。 – Sriraman

刮元素反应JS与BeautifulSoup

回答

相关问题