2010-02-12 180 views

回答

5

你有没有考虑Stack Overflow Data Dumps

你已经熟悉了这些数据的代表即业务逻辑,由蒂姆·伯纳斯 - 李

显然英国的数据跟踪

5

http://www.data.gov.uk/data

最近的设置,但不应该的问题。涵盖从废弃汽车到学校旷工到农产品价格指数的所有内容

46

datasets包是包含在基地R.运行这个命令来查看完整列表:

library(help="datasets") 

除此之外,还有包含重要数据很多的包,可以提取数据,以及其他许多。其中,您可能希望先看看HistData包,该包提供了一组在统计和数据可视化历史上很有意义且重要的小数据集。

对于财务数据,the quantmod package提供了一个通用的接口从谷歌,雅虎,FRED,和其他人拉的时间序列数据:

library(quantmod) 
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED 

FRED(the Federal Reserve of St. Louis)真的是自由经济数据的地雷。

许多R软件包都捆绑了特定于其目标的数据。因此,如果您对遗传学,多级模型等感兴趣,相关软件包将经常具有该分析的典型示例。此外,书包通常附带重现所有示例所需的数据。

下面是相关程序包的一些例子:

  • alr3:包括数据陪应用线性回归(http://www.stat.umn.edu/alr
  • arm:包括一些从吉尔曼的“数据分析的回归和多级/数据分层模型“(其余数据和代码在the book's website
  • BaM:包括来自”贝叶斯方法:社会和行为科学方法“的数据
  • BayesDA:包括数据从吉尔曼的“贝叶斯数据分析”
  • cat:包括数据分类变量的数据集
  • cimis的分析:从CIMIS,加州灌溉管理信息系统
  • cshapes检索数据:包括GIS数据边界和数据
  • ecdat:数据集计量经济学
  • ElemStatLearn:包括从“统计学习,数据挖掘,推理的元素数据,与预测”
  • emdbook:从数据‘:基于广义线性模型的多元统计建模‘
  • fEcoFin:‘生态模式和数据’从书数据
  • Fahrmeir’经济和金融数据集’为Rmetrics
  • fds:功能数据集
  • fma:数据集从 “预测:方法和应用”
  • gamair:为“广义加法数据型号:其中R导论”
  • geomapdata:地形和地质制图
  • nutshell数据:包含所有来自数据‘R果壳中的’书
  • nytR:提供经纽约前往国会投票数据倍API
  • openintro:从书
  • primer数据:包括用于 “生态学组成的引物,其中R”
  • qtlbook数据:包括数据的R/QTL书
  • RGraphics:包括从“R图形”一书
  • Read.isi数据:访问旧世界生育率调查数据
+0

哇谢恩,多么令人惊讶的详细答案 - 谢谢! – 2010-02-14 10:54:42

+0

您也可以使用'tq_get()'函数添加'tidyquant'包来收集财务和经济数据。 – 2017-03-05 04:36:40

7

在网络上广泛选择。例如,这里有一个大型目录sports databases(全部免费提供数据,至少这是我的经验)。在那个目录是databaseBaseball.com,其中包含complete datasets为每个从1915年以来曾经打过职业棒球的球员。

StatLib是一个其他优秀的资源 - 非常方便。该单一web page列出了超过一百个数据库的4-5行摘要,只需单击每个数据集摘要开始处的“表格”链接即可以平面文件形式提供这些数据库。

R的基本分布预先打包了大量不同的数据集合(R 2.10中的122)。为了让他们的列表(以及一行说明):有几个数据集

data(package="datasets") 

同样,大多数包都(有时更多)。你可以看到那些相同的方式:

data(package="latticeExtra") 
data(package="vcd") 

这些数据集是在包手册和护身符给定包提到的那些,并用来说明包的功能。 AER,DAAG和vcd。有很多数据集(这些数据集也很容易扫描,因此您可以选择对您感兴趣的内容)的几个R软件包:AER,DAAG和vcd。

另一件我觉得令人印象深刻的R是它的I/O。假设您想通过雅虎财务API获取一些非常具体的财务数据。比方说,关闭打开和关闭小号&普500的价格为每月二〇〇一年至2009年,只是这样做:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?", 
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 

在代码这一行,R已取出蜱数据,其形状为数据帧并将其全部绑定到'tick_data'。 (这里有一个方便的cheat sheet瓦特/用于构建作为上述网址的雅虎财经API符号)

+0

精彩回答道格 - 谢谢! – 2010-02-14 10:56:03

+0

我认为tick_data命令是错误的。您在粘贴部分中缺少sep =“”。 – csgillespie 2010-02-18 13:57:26

1

我已经看到了你,你是在数据可视化显然感兴趣的其他问题。然后看看many eyes项目(表单IBM)和示例data sets

+0

非常感谢ewernli :) – 2010-02-14 10:58:43

3

另一个好网站是UN Data

经济 和社会事务部(DESA)部的联合国统计司 (司)推出了一个新的 基于互联网的数据服务 全球用户社区。它通过单个条目 点(http://data.un.org/)带来 联合国统计数据库容易到达 用户。现在用户可以通过 搜索并下载各种统计资源的 系统。

2

UC Irvine Machine Learning Repository目前有190个数据集。

的UCI机器学习库是 的数据库,域名 理论和数据生成器,用于机器 学习算法进行了实证分析所用的机器学习领域 的集合。

0

下面是一个R包,其中包含一些来自书籍和论文的农业数据集。示例分析包括:agridat