2012-04-18 125 views
0

抓取简单的网页非常简单。 我可以从python's manumal抓取整个网站python

import urllib2 
response = urllib2.urlopen('http://python.org/') 
html = response.read() 

但如何获取所有的网站看到了什么? 任何人都可以提供我的代码?

回答

1

使用BeautifulSoup解析网站,并为每个链接重复该过程,除非它引导您在域外。

非常简单,但如果您尝试获取动态内容,但没有链接指向动态内容,它会变得非常复杂。

+1

beautifulsoup是一个很好的工具,它具有'findAll'功能。 +1 – Endophage 2012-04-18 22:16:39

+1

谢谢,我现在检查它。 – Bogdan 2012-04-18 22:18:58

+0

@Bogdan:没问题,只要记住不要取回你已经取得的东西(你可以通过简单地将相对于服务器上的相对位置保存在光盘上的页面来完成) - 这样你就能够看到如果该文件已经被加载)。 – Tadeck 2012-04-18 22:56:22