2017-10-13 99 views
1

我必须使用网页抓取登录网页,但它也需要解决验证码。我能够解决验证码。我有问题持续会议。Python Web Scraping用captcha登录

session = requests.Session() 
html = session.get(url).content 
soup = bs(html, 'html.parser') 
name = soup.find('input', attrs={'id':some_id1}) 
pass = soup.find('input', attrs={'id':some_id2}) 
captcha = soup.find('input', attrs={'id':some_id3}) 

之后我解决了验证码。

credentials = { 
     some_id1 : username, 
     some_id2 : password, 
     some_id3 : captchatext, 
    } 

我不知道如何进一步处理会话,我想出了下面的代码,但它不起作用。我也寻找各种答案,但没有一个可行。

session.post(url, data=credentials) 
response = session.get(url).content 
soup2 = bs(response, 'html.parser') 

我需要从成功登录后打开的URL获取数据。

回答

0

使用浏览器的开发工具检查在该特定网址上完成的请求。您将在post方法中找到一个请求url以及有效负载即Credentials。然后你会得到正确的回应。