2015-02-09 81 views
2

到目前为止,我在网络抓取方面的大多数经验都相当简单易懂。发送请求,下载HTML,并提取所需的信息。目前,我有兴趣从Spotify Web应用程序中挖掘顶级游戏数据。这些数据不能通过他们的API访问,但在浏览不同的艺术家页面时可以看到。 https://play.spotify.com/artist/2cCUtGK9sDU2EoElnk0GNB使用Python刮取Web应用程序

是,如何在幕后生成我的问题这个数据是有可能刮这样的数据:

例如,国家的顶级播放的曲目可以在这个链接找到?

回答

3

的数据生成动态(下载HTML不会做特技)与FLEX在前端和什么似乎像C++/Python的后端上(根据this)。 无论如何,如果你需要刮取JavaScript生成的内容,这将是一个艰难和痛苦的屁股,因为它比刮动静态网站要复杂得多。

,我建议您选择使用PhantomJS无头WebKit的脚本化与JS API)或Selenium自动化浏览器测试/刮)。

+0

目前使用Firebug检查页面,并且我正在查找的数据在任何HTML标记中都找不到。大多数动态生成的网站仍然允许一个人查看标签之间的内容,这似乎很奇怪,没有任何东西显示在这个网站上。 – 2015-02-09 21:10:13

+1

尝试使用“选择一个元素来检查它”工具来查找HTML标记。 – Raito 2015-02-09 21:50:48