2011-03-19 73 views
2

前1000个结果,我试图让谷歌与C#中的前1000个搜索结果链接。到目前为止,我修改了Shiv Kumar的Finding links on a Web page 以查找以下链接: string webpageUrl =“http://www.google.com/search?hl=zh-CN & num = 100 & q =”+“concept”;然而 由于谷歌页面不显示所有的1000个结果,我需要找到让他们的休息方式。 可以完成没有谷歌API?得到了谷歌搜索

gilibi

+0

看看这里:https://stackoverflow.com/questions/22657548/is-it-ok-to-scrape-data-from-google-results/22703153#22703153 你在找什么叫做“刮“在IT。 – John 2017-06-08 02:54:58

回答

5

我推荐你使用API​​。

使用“屏幕抓取”从HTML是有问题的,需要经常维护的工作 - 尤其是像谷歌网页,其中几乎肯定会改变一年几次,并且经常使用重定向跟踪链接的使用上。


或者,如果您确实想要使用HTML路由,请查看查询参数 - 例如, “&开始= 10” - 这应该允许您遍历网页。

但是,没有任何保证的查询参数将保持不变,直到永远。

+1

尽可能使用API​​。否则,写代码,不会与个别查询:“&开始= 100&NUM = 100”,“和开始= 200&NUM = 100”,等等。要知道,虽然,在屏幕上谷歌皱眉刮,并会扼杀你,如果你做太多。我建议在请求之间至少延迟15秒。 – 2011-03-19 14:46:16

+0

谢谢,这真的很有帮助 – gilibi 2011-03-19 18:23:09