我是一个新的学习者R,我有兴趣使用rvest提取html表格并提交html表单。使用rvest提取html表格
现在,我想从中文网站获取一些有用的信息。网址是:
http://caipiao.163.com/award/cqssc/20160513.html
我使用Windows 10 Professional,带RStudio版本0.99.896,我使用谷歌浏览器使用XPath助手插件的Web浏览器。
我想从中文网站中提取主html表格,它包含120组关于彩票中奖号码的信息。第一个(001)是:98446,最后一个(120)是:01798;我只想提取数字(001)至(120)和中奖号码:98446至01798.
我使用XPATH帮助器和Chrome Web开发来获取XPATH。
我觉得我想要的信息的XPATH是:
//html/body/article[@class='docBody clearfix']/section[@id='mainArea']/div[@class='lottery-results']/table[@class='awardList']/*[@id="mainArea"]/div[1]/table/tbody/tr[2]/td[1]
但是当我运行在RStudio下面的代码,我无法得到我想要的结果。 以下是我的代码:
> library(rvest)
Loading required package: xml2
> url <- "http://caipiao.163.com/award/cqssc/20160513.html"
> xp <- "//html/body/article[@class='docBody clearfix']/section [@id='mainArea']/div[@class='lottery-results']/table[@class='awardList']/*[@id='mainArea']/div[1]/table/tbody/tr[2]/td[1]"
>
> x <- read_html(url)
> y <- x %>% html_nodes(xpath=xp)
> y
{xml_nodeset (0)}
>
请看看我的代码,让我知道,如果我犯任何错误。你可以简单地忽略那些不知名的汉字,它们并不重要,我只是想得到这些数字。
谢谢! 约翰
您是否运行过该代码?我不确定OP是否意识到JS中有一些后续处理可以使连续的# – hrbrmstr
你好,非常感谢你,你的解决方案似乎比较好。但是,我的R级别还不够好,我可以看到结果,例如:1 001 9 8 4 4 6 ...但是我如何提取'001'和'9 8 4 4 6'并摆脱其他无用信息? –