我在抓取新闻网站以提取所有链接,包括新闻网站中典型的存档链接。该网站here有一个加载更多网站文章的按钮View More Stories
。现在下面从网站中提取网址,包括存档链接
def find_urls():
start_url = "e.vnexpress.net/news/business"
r = requests.get("http://" + start_url)
data = r.text
soup = BeautifulSoup(data, "html.parser")
links = soup.findAll('a')
url_list = []
for url in links:
all_link = url.get('href')
if all_link.startswith('http://e.vnexpress.net/news/business'):
url_list.append(all_link)
return set(url_list)
成功后,该代码加载不少URL,但我怎么加载更多这里是按钮
<a href="javascript:void(0)" id="vnexpress_folder_load_more" data-page="2"
data-cate="1003895">
View more stories
</a>
的片断有人能帮助我。谢谢。
加载更多故事来自'发布'请求。因此,首先建立下一页网址,然后执行“发布”请求,这是您的下一页网址http://e.vnexpress.net/news/business?cate_id=1003895&page=2。你需要传递2个参数'cate_id'和'page' –
@akashkarothiya你能给我更多的解释吗?问候! – Jeremiah