我检索来自cnn.com网站上最新的新闻报道,并写了一个简单的脚本引入nokogiri做到这一点:解析Nokogiri时消除CSS选择器?
url = "http://edition.cnn.com/?refresh=1"
doc = Nokogiri::HTML(open(url))
puts doc.at_css("title").text
doc.css("#cnn_maintt2bul div+ div a").each do |headline|
article = headline.text
puts "#{article}"
end
的问题是,CNN职位的文章和视频链接的混合物。现在我只对文章而不是视频感兴趣。例如,当我运行此脚本时,它将检索所有文章,但在文章链接到视频时留下空间。
Pakistan airstrikes kill dozens
Could U.S. leave Afghanistan?
Editor's stabbing draws outrage
Ukrainian city fears uprising
U.S. hate groups in decline
这意味着Ukrainian city fears uprising
实际上会链接到视频。它会这样做,直到它检索到最后一篇文章。
我发现文章有一个名为.cnnVideoIcon
的选择器。有关我如何消除这种情况的任何想法,从而将链接到视频的文章从我的结果中删除?
如何在解析时消除这些链接?它们可能出现在任
你能提供一个链接到你刮网站? – Severin