2017-03-07 53 views
1

可以说,我需要从这个 网站收费信息: http://www.smv.gob.pe/Frm_ValorCuotaDetalle_V2.aspx?in_ac_pre_ope=A&in_ad_fecha=31/01/2017从桌面解析HTML与Python

但正如我有代理我所做的是复制从网站的源代码和问题将其粘贴在名为test222.html的记事本文件上。

我想阅读它与美丽的汤为了操纵它,但我真的不知道该怎么做。 test222.html文件在我的桌面上。 所有我现在的代码是这样的......

from bs4 import BeautifulSoup 

web_parsed = 'C:/Users/Desktop/test222.html' 

soup = BeautifulSoup(web_parsed, 'html.parser') 

print soup 

在此先感谢

回答

3

BeautifulSoup预计HTML字符串,所以你需要阅读该文件第一:

with open(r'C:/Users/Desktop/test222.html') as f: 
    html = f.read() 

soup = BeautifulSoup(html , 'html.parser') 
print soup