我开始了一个研究项目,利用wget使用本地链接和镜像选项来抓取页面。当时我这样做是为了获得数据,因为我不知道这些网站会活跃多久。所以我有60-70个站点完全镜像与本地化链接坐在一个目录。我现在需要从他们身上闪现我所能得到的。在本地内容上使用美丽的汤
有没有一个很好的使用beautifulsoup解析这些页面的例子?我意识到,美丽的设计是为了接受http请求并从那里解析。我会诚实地说,我还没有精明的技巧,而且我的编程技巧也不是很棒。现在,我有一些时间来致力于这一点,我想这样做与简单的手动方式。
有人能指点我一个很好的例子,资源,或解析我存储的HTML教程?对此,我真的非常感激。我在想这个吗?
还检查了Scrapy。 – Shubham