2014-09-04 50 views
1

我想开发一个R脚本,需要一个字符串并在维基百科搜索框上提交它。到达该字符串的页面后,R程序应从页面中提取所有表格。例如,如果字符串是曼联,那么R脚本应该在维基百科上提交一个查询,将其带到曼彻斯特统一页面并提取所有表格并将它们转换为数据框架。Sumbit通过R的维基百科查询

P.S:我刚开始尝试在R网站抓取,所以任何帮助将不胜感激。

+0

那么...你做了什么,你试图解决什么问题?请参阅http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example以获得好的R问题应该是什么感觉。目前这个问题太广泛了,不适合这个网站。 – nico 2014-09-04 10:30:20

+1

那么,您是否正在尝试开发它,或者您只是希望SO用户为您开发它?因为我在这里没有看到任何表明你为此付出的努力。 – 2014-09-04 11:49:06

回答

1

这个问题将会关闭,因为它目前有点宽泛,但是你可以做的最基本的方式是使用XML包中的readHTMLTable函数。这是一个有用的实用函数,它将处理基本的html表格。

appURL <- "http://en.wikipedia.org/wiki/Manchester United" 
library(XML) 
out <- readHTMLTable(appURL) 
> head(out[[1]], 2) 
V1        V2 V3 
1 Full name Manchester United Football Club <NA> 
2 Nickname(s)    The Red Devils[1] <NA> 

有可能使用任何API可能存在的维基百科的R包。例如,快速搜索产生了http://cran.r-project.org/web/packages/WikipediR/index.html