首先,请让我知道我正在做的是不好的使用dplyr,因为我不确定我是否以最好的方式接近这个。我有以下数据框:Group_by然后用dplyr过滤
mydf = data.frame(user = c(7,7,7,7,7,7,7,8,8,8,8,8,8),
col1 = c('0','0','1','1','0','3','NULL','3','3','0','1','0','0'),
col2 = runif(n=13),
col3 = letters[1:13],
stringsAsFactors = FALSE)
> mydf
user col1 col2 col3
1 7 0 0.7607907 a
2 7 0 0.1580448 b
3 7 1 0.8063540 c
4 7 1 0.7331512 d
5 7 0 0.2433631 e
6 7 3 0.2357065 f
7 7 NULL 0.4864172 g
8 8 3 0.6806089 h
9 8 3 0.2229874 i
10 8 0 0.6187911 j
11 8 1 0.7617177 k
12 8 0 0.5884821 l
13 8 0 0.4985750 m
我想这样做的过滤是一个有点罗嗦,但我会努力 - 我想通过删除所有行COL1 ==“0”来过滤数据框如果该行在该用户的第一行之后发生,其中col1 =='1'。 (粗体显示我搞砸了原来的问题,并切换了0和1)。例如,对于用户7,第三行有col1 =='1',所以我想过滤第3行之后的所有行,其中col1 =='0'(在这种情况下,只有第5行) 。然后,对于用户8,第11行是该用户的第一行,其中col1 =='1',因此我想过滤第12行和第13行,因为col1 =='0'。
我最后的输出应该是这样的:
> mydf
user col1 col2 col3
1 7 0 0.7607907 a
2 7 0 0.1580448 b
3 7 1 0.8063540 c
4 7 1 0.7331512 d
6 7 3 0.2357065 f
7 7 NULL 0.4864172 g
8 8 3 0.6806089 h
9 8 3 0.2229874 i
10 8 0 0.6187911 j
11 8 1 0.7617177 k
我试过以下,但没有奏效。我想添加一个rownums专栏,然后按用户分组,然后过滤我描述的工作方式。我的想法是,有什么不对我的电话过滤:
mydf %>%
mutate(rownums = 1:nrow(mydf)) %>%
group_by(user) %>%
filter(!(col1 == "0" & rownums > min(which(col1 == "1"))))
# A tibble: 9 x 5
# Groups: col0 [2]
user col1 col2 col3 rownums
<dbl> <chr> <dbl> <chr> <int>
1 7 0 0.2088034 a 1
2 7 0 0.2081894 b 2
3 7 1 0.1825428 c 3
4 7 1 0.2143353 d 4
5 7 3 0.1979774 f 6
6 7 NULL 0.2990799 g 7
7 8 3 0.7808038 h 8
8 8 3 0.1694272 i 9
9 8 1 0.1526450 k 11
这个输出之间的差异,以及正确的输出,是这个错误的输出也过滤原始数据帧的10行。
任何与此有关的帮助表示赞赏!
编辑 - 我特别好奇,如果group_by()%>%filter()对于dplyr来说在R中是不好的练习。我的group_by()的99%后面跟着summary(),这显然更有意义。
编辑2 - 我想我已经知道了!
mydf %>%
group_by(col0) %>%
mutate(rownums = 1:length(col0)) %>%
filter(!(col1 == "0" & rownums > min(which(col1 == "1"))))
只需翻转发生变异()和GROUP_BY的顺序()调用,并调整了发生变异()调用了一下,似乎已经得到它完成。尽管如此,我很乐意听到更好的方法。
高招海事组织,虽然输出显著从什么OP预计 – Aramis7d
的OP也不是很一致的区别与要求,首先他说删除行col1 == 1,然后删除行12和13,其中col1 == 0. – liborm
像我说的过滤是罗嗦,第二眼我把它搞砸了 – Canovice