2015-03-02 72 views
0

我正在做一个研究项目,为此我需要获得近150万个查询的结果。以编程方式搜索查询

任何人都可以建议我如何实现它?如果有帮助,我只需要从特定网站获得结果。

我看到所有的搜索引擎都提供API,但我不认为任何人都有可以处理数百万个查询的空闲限制。

任何建议,将不胜感激

回答

0

您可以抓取的网站,并使用自己的搜索引擎进行查询。例如,您可以使用Apache Lucene作为提供“搜索引擎”功能的开源库。您需要为每个页面创建一个文档,并将其提供给IndexWriter,稍后再查询您的索引。

另一种方法是使用由搜索引擎提供的paid API,该API允许更多数量的查询。

+0

有关如何抓取网站的任何建议? – 2015-03-02 20:04:00

+0

@Coder Hacker如何运行指向同一网站的链接元素(解析的html)上的dfs/bfs;> – fex 2015-03-02 20:24:13

+0

@fex我想我必须这样做!我希望有人在某个地方让所有网页公开索引 – 2015-03-02 20:25:23