无法在Python正确读取HTML数据3

我想在Python 3阅读以下页面的HTML数据：无法在Python正确读取HTML数据3

http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx

，我做了这种方式：

url=str(input('\n Paste URL here: '))  
url2=requests.get(url) 
html=url2.text 
print(html)

但它返回错误页面的内容。

让我补充一点，你可能会遇到Web浏览器相同的错误页面，但要避免这种情况，在第一次打开这个地址可以解决这个问题：

http://dl.nlai.ir/ui/forms/Index.aspx

什么是你的建议正确读取数据？我想要获取页面内容以从源页面提取base64编码的字符串。

来源

2017-04-13 Nima Sajedi

你可能有一个错误涉及cookies。尝试向“Index.aspx”页面发出请求，解析标头中收到的cookie，然后使用'cookies = my_cookies'将请求传递给它们' –

我是一名Python初学者，我不知道如何设置cookie。你能否详细说明一下？谢谢 –

除非您先访问“http://dl.nlai.ir/ui/forms/Index.aspx”，否则访问“http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx”会得到错误的html。所以我想你需要会议得到的网址，像这样

s = requests.Session() 
url1 = 'http://dl.nlai.ir/ui/forms/Index.aspx' 
url = 'http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx' 
s.get(url1) 
url2 = s.get(url) 
html = url2.text 
print(html)

来源

2017-04-13 10:56:01 douglee

谢谢，很好的答案。虽然我也必须设置标题，因为它显示“不支持浏览器”的错误。 –

尝试了几次后，似乎他们限制了[我的IP或会话等]的访问权限，并显示一个页面“您无权查看此区域”，是否也可以绕过此限制？ –

试试这个：添加标题信息并使用代理IP。您的IP可能会被该网站禁止。 – douglee

无法在Python正确读取HTML数据3

回答

相关问题