2011-03-22 90 views
3

我想以编程方式检索Google搜索结果,以找到特定网域在搜索结果页面中排名的位置。但是,我不想简单地抓取搜索结果页面,因为我期望高音量并需要经常这样做,如果我理解正确,这被判断为Google的滥用行为?PHP获取网站的Google排名没有抓取Google

大多数脚本/类我找到的大多数脚本/类都试图解析HTML页面,所以有更好的方法。

是否有API来获取谷歌结果? 任何想法?

谢谢!

回答

3

首先你应该明白一点: 没有“a”排名。当您使用关键字搜索时,您看到的SERP与其他人在查看关键字时看到的SERP不同。它们是一系列“个性化”因素(位置,启用cookie,即时搜索,白天时间,以前的搜索,网络历史记录,数据中心......),它们考虑了排名的位置。对于一些流行的关键词,前3名是静态的,5到10个流量中,10个之后变得非常模糊,20之后就像投掷骰子一样。

这只是抓取谷歌serps方法。

随着网络搜索api(不推荐使用,但工作)或自定义搜索api(== crap == d * ckmove by google)它变得更糟。

所以无论你做什么,你总会得到一个近乎无意义的谷歌结果快照。

不,没有其他的官方API。

这是坏消息,现在是个好消息......如果你担心自己的域名,只需转到“谷歌网站管理员工具”,然后点击“搜索查询”即可。这是你可以得到的最好的信息(它仍然很模糊,但这是你找到的,平均排名)。或者你可以申请一些专门的google anlaytics过滤器来检查谷歌引用流量的排名位置。

如果你想分析你的竞争对手,那么有很多搜索营销公司正好销售这种服务(其中大多数是专门针对每个市场的,即在德国它是sistrix,有一大堆这样的公司)。

但正如我之前所说:数据是无意义的快照,大部分时间都是不可操作的。

+0

那么像Sistrix这样的公司如何收集搜索引擎排名?我想建立一个可以做到这一点的网络应用程序。 – user599146 2011-03-24 04:10:12

+0

没有人知道sistrix究竟是怎么做到的(这是他们的秘密酱油),但是我听说过一家公司支付普通PC用户在他们的PC上安装软件,该软件在后台任务中将谷歌搜索结果剔除。你也可以使用一个僵尸网络(不推荐),或者只是一个托管服务器(如果你聪明并且不要刮得太厉害的话),但是无论如何,如果你这么做的话,你可能会使用谷歌的TOS。但正如我之前所说。不要太担心那种数据。我测试了很多这些服务(为了好钱),数据总是不可执行的。 – 2011-03-24 08:04:46

0

几个月前他们提供免费的api。但现在它已被弃用。

你可以试试自己的新Custom Search API.

限制:只有100免费查询/ 天。

+0

是否有免费的方法来获得每天超过100个免费查询?可能是不同的API或方法? – user599146 2011-03-22 00:49:53

+1

定制搜索API ==不同索引 – 2011-03-24 08:06:17

0

这可以通过使用不同的代理服务器,在请求之间使用不同的休眠时间,以及为本地化结果和适当的用户代理程序读取和发送Cookie来实现。我遵循这种方法,我使用了300代理服务器场代理和我可以整天抓取任何网站没有被阻止,有很多的提示,你可以遵循,以防止被阻止,如避免顺序访问网页:/ page/1,/ page/2等。并且不要每隔N秒就要求一个新的网页。这两个错误都会引起用户对Web请求的关注,因为真实用户会随机浏览。因此,我们需要确保以无序的方式抓取网页,并为请求之间的延迟添加随机偏移量。

+0

总的来说,你是对的,但你不能为Google使用公共代理“农场”,他们可能会立即禁止你。 您需要高质量的私人IP才能进行可靠的抓取作业,特别是在批量更大的情况下。 还有300个代理对于大规模活动还不够,我一直在使用多达1500个私有IP用于此目的。 – John 2017-07-07 00:53:26

0

我不喜欢选择的答案。

首先它太笼统了,有一个SERP的排名,它主要取决于语言和国家。
其他因素很少是一个真正的因素,非常小(例如在谷歌,你可以喜欢你的网站,他们将排在最前面)。

我个人做了很多测试,当我从国外刮来关键词并询问那里的人时,我得到了完全相同的结果。

现在中心问题 Google自定义搜索API不适用于排名跟踪,它仅适用于少量数据研究。
Bing的计数相同,而且对于较大数量的计算而言,这两项计算确实很昂贵。

如果您想获得排名数据,您只能搜索(抓取)搜索引擎,这绝对有可能(我这样做),或者您使用一种可以为您提供原始数据的抓取服务,并将原始数据提供给您的软件(也自己使用那个)。

正如你所说你不想爬你自己,看看scraping.services
这是一个大多为开发者设计的抓取服务,如果我没有弄错,你可以制作一个全功能的排名跟踪引擎,这种方式可以处理大量关键字。
如果你不想自己做,他们也有一些API模块用于生成图表和报告(不同于sistrix,但是同一种酱)。

就我个人而言,我还没有使用他们的关键字跟踪器,我直接使用谷歌和Bing他们的刮刮API,它的工作目前没有问题。

如果您对自己搜索引擎感兴趣,我可以帮助您,这并不困难(对于大量文档也可能)。