2010-05-03 106 views
0

是否有任何可靠的方法来找出指向我们详细新闻页面的链接集合。换句话说,在访问网站的第一页之后,我只想要那些指向新闻项目的链接。任何解决方案从新闻网站摘录新闻链接

回答

0

如果是针对某个特定的网站,您可以随时尝试获取该网站的HTML并使用正则表达式提取到新闻报道的链接。只需在HTML中找到代码可用于识别链接位置的部分即可。

我这样做了几次,以从网站上刮取一些信息。

但也许一个明显的问题,网站上没有RSS提要?

0

你可以做一个简单的WebRequest并下载一个页面并搜索你想要解析的内容的html。

WebRequest req = WebRequest.Create 
       ("http://www.domain.com/news.html"); 
    req.Proxy = null; 
    using (WebResponse res = req.GetResponse()) 
    using (Stream s = res.GetResponseStream()) 
    using (StreamReader sr = new StreamReader(s)) 
     File.WriteAllText("news.html", sr.ReadToEnd()); 
    //search through html page for news content. 

    System.Diagnostics.Process.Start("news.html");