2013-01-03 558 views
2

我正在做一些研究 我想在YouTube上抓取视频链接(然后得到的视频ID)如何抓取YouTube视频链接与关键词搜索

例如,如果我在关键字输入“奥巴马” YouTube搜索栏 然后youtube.com将返回页面结果

http://www.youtube.com/results?search_query=htc&page=2 滚动页面下到谷底 我们可以看到页码1 2 3 4 5 6 7 点击页面上的数量从2到3到4到5 .... 然后我们可以达到最大页码:50

所以我想所有的页面下载从1到50 有一个url招,像

http://www.youtube.com/results?search_query=obama&page=5 

不过,如果我使用wget下载的每一页,有时,下载将被阻止 或者有时,当页面号很大时,返回的页面不是异常页面。

所以一个正确的方法是手动点击页码按钮并使用网页浏览器下载每一页,是否可以自动执行手动程序? 我在因特网上搜索过,有些人提到chrome javascript extention, 无论如何,有没有什么方法可以编写一些自动化脚本来模仿手动操作?谢谢!

回答

1

为什么不只是使用他们的API?爬行通常是不好的做法。

https://developers.google.com/youtube/2.0/developers_guide_protocol

https://developers.google.com/youtube/2.0/developers_guide_protocol_api_query_parameters

https://gdata.youtube.com/feeds/api/videos? 
    q=football+-soccer 
    &orderby=published 
    &start-index=11 
    &max-results=10 
    &v=2 
+0

这些API无法得到所有相关的搜索关键字 – user1944267

+0

的视频ID,如果在API中的一些限制,它可能是有原因的。你能举个例子吗? – Halcyon

+0

啊,这似乎没问题,但我都想收集评论,如https://www.youtube.com/all_comments?v=FL7yD-0pqZg&page=6,所以我仍然希望使用自动化脚本来模仿手动操作 – user1944267