如何获取点击按钮可到达的页面的源

我正在用python编写脚本来下载每天发布在网站上的pdf。如何获取点击按钮可到达的页面的源

我在抓取页面和下载文件时没有问题。是我目前所面临的问题是，由于该网站有更多的网页，我知道你在想什么;），但它不会是，如果该网站是构建这样一个问题：

page 1 -> www.example.com/page1 
page 2 -> www.example.com/page2 ...

但问题是，不幸的是，当我按页码来更改页

pages

没有在URL字段发生。

我唯一能找到的就是这个事件在控制台：

console

我需要点击页面按钮是这些：

<nav class="text-center"> 
    <ul class="pagination pagination-sm files_paging"><li><a data-page="1" aria-label="Previous"><span aria-hidden="true">«</span></a></li><li class="active"><a data-page="1">1</a></li><li><a data-page="2">2</a></li><li><a data-page="3">3</a></li><li><a data-page="4">4</a></li><li class="disabled"><a data-page="4"><span aria-hidden="true">...</span></a></li><li><a data-page="9">9</a></li><li><a data-page="2" aria-label="Next"><span aria-hidden="true">»</span></a></li></ul> 
</nav>

是否有任何人谁拥有有什么想法？

来源

2017-04-17 kefete

我假定所提到的页面使用JavaScript框架来显示内容。您应该尝试以下选项。

猜测URL的模式。
下载页面的前端部分（HTML和JavaScript文件）并搜索URL生成或检索的点。
如果您对类似任务感兴趣，您应该尝试Selenium或其他类似的基于浏览器的可编程测试工具。

来源

2017-04-17 21:11:38

嗨，感谢您的回答！ “猜猜网址的模式。”已经尝试过，没有成功：（“如果你对类似的任务感兴趣，你应该尝试使用Selenium或其他类似的基于浏览器的可编程测试工具。”我不能使用一个浏览器。“下载页面的前端部分HTML和JavaScript文件），并搜索网址已生成或检索的点。“你能解释一下更详细的信息吗？ – kefete

你可以使用例如curl或wget，如下所述：http://stackoverflow.com/questions/32750276 /如何下载整个网站的前端 –

恐怕wget不会工作，即使有选项 - r，因为没有链接可以关闭 – kefete

如何获取点击按钮可到达的页面的源

回答

相关问题