如何从下载的网页中提取信息？

-2

我必须从成千上万个网页中按系统顺序提取大学名称，联系电话，电子邮件ID等信息。有没有脚本可以做到这一点？如何从下载的网页中提取信息？

完整场景：我使用wget下载了包含各个学院信息的网页。每个大学约有5000个关于他们的信息的网页，但是我只对他们的名字，电子邮件ID，网站和联系号码感兴趣。我需要将提取的信息按系统顺序保存在合适的文件中。如何提取信息？我怎样才能使用grep来做到这一点？有没有更好的方法来做到这一点？哪些脚本可用于提取信息？ PS：我使用Ubuntu和Kali linux。我是一个新手。需要专家的帮助。

来源

2014-11-23 Faiz

看看python和BeautifulSoup – 2014-11-23 21:28:08

我假设你有一个目录，“CD”来表示所有文件：

grep -i -e "Name" -e "email" -e "http" ./*

和完善，当你看到结果。这将写入你的屏幕，最后添加后：

>> my_collected_things.txt

把它变成文件。

来源

2014-11-23 14:49:14 ajaaskel

它不起作用。它给出来自http源文件的输出和所有对我无用的内容。我是网页开发和python的初学者。我试着用beautifulSoup和机械化工作，但不能写一个能完成工作的脚本。 – Faiz 2014-12-13 10:19:44

如何从下载的网页中提取信息？

回答

相关问题