抓取简单的网页非常简单。 我可以从python's manumal抓取整个网站python
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
但如何获取所有的网站看到了什么? 任何人都可以提供我的代码?
抓取简单的网页非常简单。 我可以从python's manumal抓取整个网站python
import urllib2
response = urllib2.urlopen('http://python.org/')
html = response.read()
但如何获取所有的网站看到了什么? 任何人都可以提供我的代码?
使用BeautifulSoup解析网站,并为每个链接重复该过程,除非它引导您在域外。
非常简单,但如果您尝试获取动态内容,但没有链接指向动态内容,它会变得非常复杂。
可以使用Scrapy的
您可以提取网页上的链接,并跟踪,如果你的过已经访问过那个页面或者没有,并且这个url是否属于同一个站点并且获取它们。
您需要记住您为了索引该页面所需的嵌套级别。否则,你要检索的页面会成指数增长
beautifulsoup是一个很好的工具,它具有'findAll'功能。 +1 – Endophage 2012-04-18 22:16:39
谢谢,我现在检查它。 – Bogdan 2012-04-18 22:18:58
@Bogdan:没问题,只要记住不要取回你已经取得的东西(你可以通过简单地将相对于服务器上的相对位置保存在光盘上的页面来完成) - 这样你就能够看到如果该文件已经被加载)。 – Tadeck 2012-04-18 22:56:22