2017-01-10 45 views
1

我开始了一个研究项目,利用wget使用本地链接和镜像选项来抓取页面。当时我这样做是为了获得数据,因为我不知道这些网站会活跃多久。所以我有60-70个站点完全镜像与本地化链接坐在一个目录。我现在需要从他们身上闪现我所能得到的。在本地内容上使用美丽的汤

有没有一个很好的使用beautifulsoup解析这些页面的例子?我意识到,美丽的设计是为了接受http请求并从那里解析。我会诚实地说,我还没有精明的技巧,而且我的编程技巧也不是很棒。现在,我有一些时间来致力于这一点,我想这样做与简单的手动方式。

有人能指点我一个很好的例子,资源,或解析我存储的HTML教程?对此,我真的非常感激。我在想这个吗?

+0

还检查了Scrapy。 – Shubham

回答

1

在本地内容中使用BeautifulSoup与Internet内容一样。例如,读取本地的HTML文件到BS4:

response = urllib.request.urlopen('file:///Users/Li/Desktop/test.html', timeout=1) 
    html = response.read() 
    soup = bs4.BeautifulSoup(html, 'html.parser') 

在如何使用BS4处理HTML而言,BS4的文件是一个不错的教程。在大多数情况下,花一天时间阅读它就足以进行基本的数据处理。

https://www.crummy.com/software/BeautifulSoup/bs4/doc/ 
0

解析文档,将其传递到BeautifulSoup构造函数中。您可以传递一个字符串或开放的文件句柄

from bs4 import BeautifulSoup 

soup = BeautifulSoup(open("index.html")) 

soup = BeautifulSoup("<html>data</html>")