我想从网站解析一些信息,数据在多个页面之间传播。使用美丽的汤从未知数量的页面刮取数据
问题是我不知道有多少页。可能有2个,但也可能有4个,甚至只有一个页面。
当我不知道有多少页面时,如何循环页面?不过我知道在下面的代码中看起来类似的url模式。
另外,页面名称不是普通数字,但它们分别在页面2的'pe2'
和页面3的'pe4'
等中,因此不能循环遍历范围(数字)。
我试图修复这个循环的伪代码。
pages=['','pe2', 'pe4', 'pe6', 'pe8',]
import requests
from bs4 import BeautifulSoup
for i in pages:
url = "http://www.website.com/somecode/dummy?page={}".format(i)
r = requests.get(url)
soup = BeautifulSoup(r.content)
#rest of the scraping code
只是增加数量,直到你得到一个404回应? – jsbueno
那么,除了这个,我还得写些什么?它会怎么样? –
是的,如果你得到一个例外,那里什么也没有。 –