0
我需要检索只在一个网站的HREF第一级网页HREF的只有1级。例如:http://www.example.com/是,我需要打开网站和read.I打开页面,收集HREF的,我得到的所有环节如/公司/组织/公司/ globallocations,/公司/编辑部,/接触,/网站地图等等。收集在使用Python
下面是Python代码。
req = urllib2.Request(domain)
response = urllib2.urlopen(req)
soup1 = BeautifulSoup(response,'lxml')
for link in soup1.find_all('a',href = True):
print link['href']
我期望的输出,
/公司/接触,/网站地图为网站www.example.com
请帮助和建议我一个解决方案。
谢谢@中黛。我的意思是第一层与一个**/**链接。同样可以收集吗?收集www.example.com/company而不是www.company.com/company/organization。 – NiviSRa
正如我所说,如果你确定规则如此简单,只需删除最后一个**/something **。这很容易在Python中完成,甚至可以使用'os.path.dirname(url)'来获取没有**/something **的第一部分。 –