2014-11-23 70 views
-2

我必须从成千上万个网页中按系统顺序提取大学名称,联系电话,电子邮件ID等信息。有没有脚本可以做到这一点?如何从下载的网页中提取信息?

完整场景:我使用wget下载了包含各个学院信息的网页。每个大学约有5000个关于他们的信息的网页,但是我只对他们的名字,电子邮件ID,网站和联系号码感兴趣。我需要将提取的信息按系统顺序保存在合适的文件中。 如何提取信息?我怎样才能使用grep来做到这一点?有没有更好的方法来做到这一点?哪些脚本可用于提取信息? PS:我使用Ubuntu和Kali linux。我是一个新手。需要专家的帮助。

+0

看看python和BeautifulSoup – 2014-11-23 21:28:08

回答

0

我假设你有一个目录,“CD”来表示所有文件:

grep -i -e "Name" -e "email" -e "http" ./* 

和完善,当你看到结果。这将写入你的屏幕,最后添加后:

>> my_collected_things.txt 

把它变成文件。

+0

它不起作用。 它给出来自http源文件的输出和所有对我无用的内容。 我是网页开发和python的初学者。我试着用beautifulSoup和机械化工作,但不能写一个能完成工作的脚本。 – Faiz 2014-12-13 10:19:44