-1
因此,我有一个很大的数据集,有许多列(10)和100,000行。其中一列是观察日期,另外还有两个相应的栏目,一个种类和另一个年份。首先,我想创建一个新列,这将为我提供观测前10%(每年每种物种)每年每种物种的平均观察日期。其次,我想减少该数据集,以便只保留计算中涉及的行(即:前10%)。最后,重要的是,我的新数据集有其他相应的列,每个观察的信息,即位置等。 样本数据集的(确实存在更多的列):R:减少数据集并创建条件平均值
date=c(3,84,98,100,34,76,86...)
species=c(blue,purple,grey,purple,green,pink,pink,white...)
id=c(1,2,3,2,4,5,5,6...)
year=c(1901,2000,1901,1996,1901,2000,1986...)
habitat=c(forest,plain,mountain...)
实例:在第一行说种蓝色被认为在森林中的1901年1月3日。
data.table和dplyr都是用于此类操作的良好软件包。请参阅http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example – 2015-04-04 19:02:15
我真的很可怕的R,任何想法我会如何使用dplyr具体? – John 2015-04-04 21:02:05