2015-11-05 122 views
2

我最近发现,在对一个对象(即一个数据框)进行子集化处理后,结果对象可能是在同一行代码中的“[”它更早!)。这里是一个例子:嵌套子集与“[”

# Create a data frame 
df1 <- as.data.frame(matrix(1:9, nrow = 3)) 

# Take a look at the data frame 
df1 
    V1 V2 V3 
1 1 4 7 
2 2 5 8 
3 3 6 9 

# If I want the value which is on the 3rd row and 2nd column 
df1[3,2] 
[1] 6 

# But I could also 
df1[,2][3] 
[1] 6 

关于第二个选择的几句话。 df[,2]返回一个原子向量,然后将其与df[,2][3]进行子集合。

以下数据框将有助于说明我的问题。这是一个简单的数据框,其中包含26名学生的名字,他们各自的部门以及一个数字值。为了可重现性添加种子编号。

set.seed(123) 
df2 <- data.frame(name = letters, dept = sample(c("econ", "stat", "math"), 26, replace = TRUE), value = runif(26, 0, 100)) 
head(df2) 
    name dept value 
1 a econ 54.40660 
2 b math 59.41420 
3 c stat 28.91597 
4 d math 14.71136 
5 e math 96.30242 
6 f econ 90.22990 

我想知道谁在econ部门的最低值。我想的第一件事是:

df2[df2$dept == "econ" & df2$value == min(df2$value),] 
[1] name dept value 
<0 rows> (or 0-length row.names) 

我花了一段时间来理解我在做什么错的,但我终于明白了,问题是,我的代码假设谁总体具有最低值的人也来自econ部门,情况并非如此(这就是R给我的答案)。实际上,总体价值最低的人来自stat部门。

i <- which(df$value == min(df$value)) 
df[i,] 
    name dept value 
9 i stat 2.461368 

当然,我可以很容易找到答案,我的问题:

df_econ <- df2[df2$dept == "econ",] 
df_econ 
    name dept value 
1  a econ 54.40660 
6  f econ 90.22990 
15 o econ 14.28000 
17 q econ 41.37243 
18 r econ 36.88455 
19 s econ 15.24447 
df_econ[df_econ$value == min(df_econ$value),] 
    name dept value 
15 o econ 14.28 

但我想知道如果我可以使用与[运营商获得相同的结果“嵌套”子集。我的意思是这样的代码:

df2[df2$dept == "econ",][... ,] 

我不知道如何来引用value列在这一点上,因为第一子集操作df2[df2$dept == "econ",]所得到的数据帧从df2不同的数据帧。我也知道value列是第3列,但我不知道如何使用列索引而不是他们的名称设置子集条件。

谢谢你的帮助。

+2

FWIW'data.table's非常适合这种类型的操作。 – nrussell

+1

你需要链接这个,这意味着包data.table或包dplyr。 – Roland

+0

@nrussell感谢您的建议。我更熟悉'dplyr'软件包,但在基本R中没有办法做到这一点? – SavedByJESUS

回答

5

这里有一些选择:

library(dplyr) 
# also in @bramtayl's answer: 
df2 %>% filter(dept == "econ") %>% filter(value==min(value)) 
# or 
df2 %>% filter(dept == "econ") %>% slice(which.min(value)) 

# or... 

library(data.table) 
setDT(df2)[dept == "econ"][value==min(value)] 
# or 
setDT(df2)[dept == "econ"][which.min(value)] 

这些软件包提供的链接,除了笨拙的基础R不可用的方便的方式,就像

subset(subset(df2, dept=="econ"), value == min(value)) 

可能还有其他套餐,但这些其中两种最近被广泛使用。


评论。此评论有用吗?如果你只是浏览数据,我建议在dept级别汇总:

# dplyr: 
df2 %>% group_by(dept) %>% slice(which.min(value)) 

# data.table: 
df2[, .SD[which.min(value)], by=dept] 


    dept name  value 
1: econ o 14.280002 
2: math t 13.880606 
3: stat i 2.461368 
+0

非常感谢您的回答。那么,现在我知道在R基地这是不可能的。 – SavedByJESUS

1

一致认为,链接是必要的:

library(magrittr) 

df %>% 
    `[`(.$dept == "econ",) %>% 
    `[`(.$value == min(.$value),) 

为什么不dplyr坚持有关系吗?

library(dplyr) 

df %>% 
    filter(dept == "econ") %>% 
    filter(value == min(value))