2010-09-25 82 views
3

把常规搜索引擎作为一个人来使用,可以获得不超过1000个结果,这远远超过了普通人的需求。如何使用Perl Google API获取1000多个Google搜索结果?

但是如果我想要2000?可能吗?我读过使用App Engine或类似的东西(在这里......),但是,是否有可能以某种方式通过Perl来完成它?

+0

我认为他们将查询限制为1000页的原因是因为过去这个数字,结果很少相关。你可能应该权衡产生一个稍微不同的查询是否更有成效,或者处理过去是否是你真正想要的(AFAIK,没有办法绕过这个限制)。 – 2010-09-25 13:35:17

回答

3

我不知道解决这个限制的方法,除了使用一系列精确的搜索与一个常规搜索。

搜索#1: “蒂姆梅多拉凤凰”

搜索#2: “蒂姆梅多拉波士顿”

例如,而不是仅仅 “蒂姆梅多拉”,我可能会通过搜索自己

搜索#3:“Tim Medora Canada”

但是,如果您尝试使用Google搜索特定网站,那么您可以阅读该网站的Google网站地图。

例如,www.linkedin.com通过一系列嵌套的网站地图XML文件公开了所有8000万用户/企业:http://www.linkedin.com/sitemap.xml

使用此方法,您可以使用自己的搜索算法轻松地抓取特定网站,前提是它们具有良好的Google站点地图。

当然,我绝不建议你利用网站地图非法/不友好的目的。

+0

谢谢,那个sitemap.xml对我来说是新东西,而且非常有用。我不明白为什么linkein应该在他们的服务器上有这个文件? – snoofkin 2010-09-25 14:19:55

+2

LinkedIn使用sitemap.xml文件告诉Google每个页面都存在。抓取工具只能找到已链接到其他网页的网页,而在像LinkedIn这样的大型网站上,并非所有网页都直接链接到任何内容。该网站地图告诉Google抓取工具明确了每个页面的去向。 Google使用sitemap.xml文件和临时爬网的组合来构建其数据库。只需在Google上查找“google sitemaps”,即可了解站点地图是什么,如何创建它们以及如何阅读它们。 – 2010-09-25 14:24:54

+0

WOW,这是一件很有趣的事情,非常感谢您的帮助! – snoofkin 2010-09-25 15:10:33