在本地内容上使用美丽的汤

我开始了一个研究项目，利用wget使用本地链接和镜像选项来抓取页面。当时我这样做是为了获得数据，因为我不知道这些网站会活跃多久。所以我有60-70个站点完全镜像与本地化链接坐在一个目录。我现在需要从他们身上闪现我所能得到的。在本地内容上使用美丽的汤

有没有一个很好的使用beautifulsoup解析这些页面的例子？我意识到，美丽的设计是为了接受http请求并从那里解析。我会诚实地说，我还没有精明的技巧，而且我的编程技巧也不是很棒。现在，我有一些时间来致力于这一点，我想这样做与简单的手动方式。

有人能指点我一个很好的例子，资源，或解析我存储的HTML教程？对此，我真的非常感激。我在想这个吗？

来源

2017-01-10 RoninUTA

还检查了Scrapy。 – Shubham

在本地内容中使用BeautifulSoup与Internet内容一样。例如，读取本地的HTML文件到BS4：

response = urllib.request.urlopen('file:///Users/Li/Desktop/test.html', timeout=1) 
    html = response.read() 
    soup = bs4.BeautifulSoup(html, 'html.parser')

在如何使用BS4处理HTML而言，BS4的文件是一个不错的教程。在大多数情况下，花一天时间阅读它就足以进行基本的数据处理。

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

来源

2017-01-10 04:24:44

解析文档，将其传递到BeautifulSoup构造函数中。您可以传递一个字符串或开放的文件句柄：

from bs4 import BeautifulSoup 

soup = BeautifulSoup(open("index.html")) 

soup = BeautifulSoup("<html>data</html>")

来源

2017-01-10 04:50:16

在本地内容上使用美丽的汤

回答

相关问题