我想从下面的晨星网站抽取数据:Webscraping财务数据来自晨星
http://financials.morningstar.com/ratios/r.html?t=IBM®ion=USA&culture=en_US
我目前要做的只是IBM,但希望最终能在别人的代码输入公司,并对此做同样的事情。到目前为止我的代码低于:
import requests, os, bs4, string
url = 'http://financials.morningstar.com/ratios/r.html?t=IBM®ion=USA&culture=en_US';
fin_tbl =()
page = requests.get(url)
c = page.content
soup = bs4.BeautifulSoup(c, "html.parser")
summary = soup.find("div", {"class":"r_bodywrap"})
tables = summary.find_all('table')
print(tables[0])
的问题,我目前正在经历一个不同的网页更简单我已经刮了程序似乎无法找到任何表,即使我能看到他们在为HTML这一页。
在研究这个问题最近计算器的问题是下面:
Python webscraping - NoneObeject Failure - broken HTML?
在一个他们解释说,晨星公司的表是动态加载和使用的一些JSON代码,我不熟悉,不知何故产生一个不同的网络链接哪些设法刮了数据,但我不明白它来自哪里?
感谢
嘿holdenweb,谢谢你们,我在过去曾经和Selenium一起玩过,并且可能会仔细研究一下。当我开始考虑这个问题时,我曾考虑过这个问题,但我的主要预测是,据我所知,Selenium不能在后台运行。但是根据你和其他人对现代网页所说的直接HTML和HTML的不断变化,可能值得看看它。谢谢! – user5841014