2009-12-11 103 views
0

亲爱的,我现在用的是webtool如何检索网页谷歌

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=

解析网页。

例如,我们可以分析newyorktimes主页,我们这样做:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://www.nytimes.com/pages/world/index.html

在我们的浏览器的地址栏中

,这将很好地分析事情对我们来说。

但是,它只是失败的谷歌网页。 例如,如果我想分析谷歌新闻headpage,如:

http://fiddesktop.cs.northwestern.edu/mmp/scrape?url=http://news.google.com/nwshp?hl=en&tab=wn

我总是会得到500内部服务器错误。

我确定这与Google网站有些关系,我认为我们可能需要一些针对谷歌的API,有没有人有任何想法如何对谷歌页面进行排序? 非常感谢。

回答

2

根据google.com robots.txt文件,明确要求您不要刮掉其内容。 Google不会为机器可读的搜索结果提供API;他们希望通过小部件和嵌入策略来控制其内容的表示。

+0

谢谢,Jonanthan,帮助 如何雅虎!或Bing? – Kevin 2009-12-11 04:05:56

+0

其实,Robert应该阅读robots.txt文件。 Google的某些部分 - 明确允许进行刮擦。 – 2009-12-11 04:25:46

+0

不是搜索结果,没有。 – 2009-12-11 04:27:08