我必须从成千上万个网页中按系统顺序提取大学名称,联系电话,电子邮件ID等信息。有没有脚本可以做到这一点?如何从下载的网页中提取信息?
完整场景:我使用wget下载了包含各个学院信息的网页。每个大学约有5000个关于他们的信息的网页,但是我只对他们的名字,电子邮件ID,网站和联系号码感兴趣。我需要将提取的信息按系统顺序保存在合适的文件中。 如何提取信息?我怎样才能使用grep来做到这一点?有没有更好的方法来做到这一点?哪些脚本可用于提取信息? PS:我使用Ubuntu和Kali linux。我是一个新手。需要专家的帮助。
看看python和BeautifulSoup – 2014-11-23 21:28:08