2015-10-21 79 views
-4

因此,有这个网站显示最受欢迎的网站。我正在尝试编写一个脚本,其中包含两个参数:第一个是html文件,第二个是文本文件。所有的网站网址应到第二个参数,所以在最后的文本文件应包含的东西,如:解析网站的linux脚本(url)

http://www.website1.com/ 
http://www.website2.com/ 
... 

如果我说

cat argument1.html 

这样的东西印:

<a href="http://babelfish.altavista.com/babelfish/trurl_pagecontent?lp=en_nl&url=http%3A%2F%2Fwww.100bestwebsites.org%2F"><img src="Holland.gif" height="33" width="50"><br>DUTCH</a></font></div></td> 
    <td width="10%"> 
    <div align="center"><font face="Arial, Helvetica, sans-serif" size="2"><a href="http://babelfish.altavista.com/babelfish/trurl_pagecontent?lp=en_el&url=http%3A%2F%2Fwww.100bestwebsites.org%2F"><img src="Greece.gif" height="33" width="50"><br>GREEK</a></font></div></td> 

所以你们可以看到有一堆字符,但在中间的某个地方实际上是网站。我需要使用grep和sed。

任何帮助表示赞赏。我知道grep和sed的基础知识,但它只是基础知识是不够的。

回答