2017-04-17 68 views
0

我正在用python编写脚本来下载每天发布在网站上的pdf。如何获取点击按钮可到达的页面的源

我在抓取页面和下载文件时没有问题。 是我目前所面临的问题是,由于该网站有更多的网页,我知道你在想什么;),但它不会是,如果该网站是构建这样一个问题:

page 1 -> www.example.com/page1 
page 2 -> www.example.com/page2 ... 

但问题是,不幸的是,当我按页码来更改页

pages

没有在URL字段发生。

我唯一能找到的就是这个事件在控制台:

console

我需要点击页面按钮是这些:

<nav class="text-center"> 
    <ul class="pagination pagination-sm files_paging"><li><a data-page="1" aria-label="Previous"><span aria-hidden="true">«</span></a></li><li class="active"><a data-page="1">1</a></li><li><a data-page="2">2</a></li><li><a data-page="3">3</a></li><li><a data-page="4">4</a></li><li class="disabled"><a data-page="4"><span aria-hidden="true">...</span></a></li><li><a data-page="9">9</a></li><li><a data-page="2" aria-label="Next"><span aria-hidden="true">»</span></a></li></ul> 
</nav> 

是否有任何人谁拥有有什么想法?

回答

0

我假定所提到的页面使用JavaScript框架来显示内容。您应该尝试以下选项。

  • 猜测URL的模式。
  • 下载页面的前端部分(HTML和JavaScript文件)并搜索URL生成或检索的点。
  • 如果您对类似任务感兴趣,您应该尝试Selenium或其他类似的基于浏览器的可编程测试工具。
+0

嗨,感谢您的回答! “猜猜网址的模式。”已经尝试过,没有成功:(“如果你对类似的任务感兴趣,你应该尝试使用Selenium或其他类似的基于浏览器的可编程测试工具。”我不能使用一个浏览器。“下载页面的前端部分HTML和JavaScript文件),并搜索网址已生成或检索的点。“你能解释一下更详细的信息吗? – kefete

+0

你可以使用例如curl或wget,如下所述:http://stackoverflow.com/questions/32750276 /如何下载整个网站的前端 –

+0

恐怕wget不会工作,即使有选项 - r,因为没有链接可以关闭 – kefete