2011-11-21 96 views
3

我想创建一个工具,它产生的某些词或短语如何经常在博客,论坛,社交媒体和新闻网站,我发生的统计数据。即是这样的:搜索博客,论坛,新闻网站编程

20.11.2011;足球; 800302

21.11.2011;足球;百万

每天这个工具会做一个搜索,然后保存的数在特定的日子提及搜索项目。

我如何能实现这一点(做一个谷歌/ Yandex的搜索程序)的Java或Ruby的?

有谷歌博客搜索API(http://code.google.com/apis/blogsearch/),但现在已被弃用。

+0

你寻求帮助与哪些具体问题? –

+0

我需要一个代码示例(使用Java或Ruby),在该示例中,我向查询引擎发送查询,并在过去24小时内获取博客和其他指定数据源中搜索项的数量。 –

回答

4

如果你心里有特定的网站,那么你可以一天一次刮它,但如果你正在寻找更广泛的网站在您的文章,提到男孩,那是一个艰难的一个。我会尝试使用谷歌趋势-http://www.google.com/trends?q=football或谷歌博客搜索http://www.google.com/search?q=football&tbm=blg

它会为你节省很多的麻烦。否则,您可能需要编写自己的爬虫程序,并索引非常大量的数据。在这种情况下,你可能想看看Nutch http://nutch.apache.org/和Lucene http://lucene.apache.org

+0

谢谢,谷歌趋势是我期待的。 –