我的应用程序需要刮掉从WTA网站数据:单排名和单路的排名(从球员排名第一的球员,以排名第1000)。排名可通过以下链接访问:http://www.wtatennis.com/rankings如何检索通过链接访问隐藏的网址掐灭以“#”
就在描绘两个单一排名类别中排名第一的球员的照片下面,有一个菜单可以访问所有排名类别:单人,双打,保时捷比赛单打,保时捷比赛双打。问题是,点击这些链接浏览器地址栏中的网址不会改变。 Web检查员显示这些链接全部使用与href="#"
相同的<a>
标签创建。
http://www.wtatennis.com/rankings url默认显示单个排名前100位玩家,所以我认为应该有一个隐藏的url专用于道路排名页面。起初,我想到了使用标签导航组织的单个文档,但是网络检查员表明他们都是不同的页面。
向下滚动页面到列表的底部,可以看到,上面的第100位排名的球员都是通过分页访问。分页链接也掐灭与’#’
:
<a class="footable-page-link" href="#">1</a>
<a class="footable-page-link" href="#">2</a>
<a class="footable-page-link" href="#">3</a>
...
因此,即使是在信息以上的玩家数量排名100的网址是隐藏的。
有什么办法可以访问所有这些隐藏的网址吗?
我写了一封信,ATP的副总裁兼总法律顾问,我得到了他使用这些网址的权限,但是当我明确地问他的第二封信中提供这样的信息,他回答说:“这些网址是所有在我们的网站和WTA网站上公开发布“。他认为自己有这个权利,他可能有更重要的事情要做,而不是与我私下通信(我怀疑第三封信会令人讨厌),但我认为我可能根本缺乏从他那里获取的知识他们的网站。
我明白。我想我不得不放弃使用Nokogiri从SPA中刮去内容。 – Asarluhi
是的,任何只关注HTML并忽略JavaScript的东西都可能无法理解单页应用程序中的任何东西。 –