2017-04-13 71 views
1

我想在Python 3阅读以下页面的HTML数据:无法在Python正确读取HTML数据3

http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx 

,我做了这种方式:

url=str(input('\n Paste URL here: '))  
url2=requests.get(url) 
html=url2.text 
print(html) 

但它返回错误页面的内容。

让我补充一点,你可能会遇到Web浏览器相同的错误页面,但要避免这种情况,在第一次打开这个地址可以解决这个问题:

http://dl.nlai.ir/ui/forms/Index.aspx 

什么是你的建议正确读取数据?我想要获取页面内容以从源页面提取base64编码的字符串。

+0

你可能有一个错误涉及cookies。尝试向“Index.aspx”页面发出请求,解析标头中收到的cookie,然后使用'cookies = my_cookies'将请求传递给它们' –

+0

我是一名Python初学者,我不知道如何设置cookie。你能否详细说明一下?谢谢 –

回答

1

除非您先访问“http://dl.nlai.ir/ui/forms/Index.aspx”,否则 访问“http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx”会得到错误的html。所以我想你需要会议得到的网址,像这样

s = requests.Session() 
url1 = 'http://dl.nlai.ir/ui/forms/Index.aspx' 
url = 'http://dl.nlai.ir/UI/25d36bb4-72aa-43c1-af2d-086540db8aea/LRRView.aspx' 
s.get(url1) 
url2 = s.get(url) 
html = url2.text 
print(html) 
+0

谢谢,很好的答案。虽然我也必须设置标题,因为它显示“不支持浏览器”的错误。 –

+0

尝试了几次后,似乎他们限制了[我的IP或会话等]的访问权限,并显示一个页面“您无权查看此区域”,是否也可以绕过此限制? –

+0

试试这个:添加标题信息并使用代理IP。您的IP可能会被该网站禁止。 – douglee