我是python和SO的新手。这是我的问题。如何使用BeautifulSoup提取html标签之外的数据
我想从以下网页NDBC - Station 46011.我一直在看关于如何使用BeautifulSoup从网页收集数据的教程提取数据,我有以下代码至今:
import requests
from bs4 import BeautifulSoup
url = 'http://www.ndbc.noaa.gov/data/latest_obs/46011.rss'
r = requests.get(url)
soup = BeautifulSoup(r.content)
data_types = soup.find_all('strong')
for item in data_types:
print(item.text)
这给了我不同的数据类型(风向,速度,阵风等)。但是,我无法从此网页提取数字数据。当您查看网页来源时,您可以看到数字数据位于'strong'标签之后和'br'标签之前。由于它没有显式地位于两个标签之间,因此无法提取此数据。
感谢您提前提供所有帮助!
你有看着如http://stackoverflow.com/q/8220732/3001761? – jonrsharpe 2014-09-28 08:02:24