2016-11-06 43 views
1

我对python和学习Web爬行是完全陌生的。在文本文件中下载目标链接html(美丽的汤 - Python3)

我正尝试在文本页面中下载单个目标链接。
到目前为止,我成功地提取了我需要的所有目标URL,但不知道如何下载文本文件中的所有目标HTML文本。

有人能给我一个大概的想法。

url = "" 
r = requests.get(url) 
data = r.text 
soup = BeautifulSoup(data, "lxml") 
link1 = soup2.find_all('a', href=re.compile("drupal_lists")) 
for t in link1: 
    print(t.attrs['href']) 

回答

0

在您的for循环中使用请求库访问链接URL并将内容写入文件。例如:

link_data = requests.get(t.attrs['href']).text 
with open('file_to_write.out', 'w') as f: 
    f.write(link_data) 

您可能需要更改每个链接的文件名。

+0

我添加了这个语句,但它不起作用。它只显示一个目标链接。这里有什么问题?对于链接1中的t: link_data = requests.get(t.attrs ['href'])。text with open('text.txt','w')as f: f.write(link_data) –