2016-07-28 1155 views
1

我必须绘制每年的Fatalities图。所以我从日期中拿出 年,然后按它分组,然后我总结,以便我每年得到致命性。但是当我跑步的时候,它会给我带来整个数据集的死亡率。关于R中的Group_by和Summarize函数的误解[DPLYR包]

我不明白为什么?还有其他每年都会遇到死亡的替代方案。

在数据集中,每个事件都会发生致命事故,每年都会发生很多事件。

crash_data=read.csv("https://raw.githubusercontent.com/gluque/analytics_task2/master/Airplane_Crashes_and_Fatalities_Since_1908.csv") 
    > crash_data$Date <- as.Date(crash_data$Date, "%m/%d/%Y") 
    > crash_data$Date <- format(crash_data$Date, '%Y') 
    > cd<-subset(crash_data,select = c(Fatalities,Date)) 
    > ab<-group_by(cd,Date) 
    > ef<-summarize(ab,Fatalities=sum(Fatalities,na.rm = TRUE)) 
    > ef 
     Fatalities 
    1  105479 
+0

尝试'GROUP_BY(CD,日期)%>%综述(死亡人数= SUM(死亡人数,na.rm = TRUE)' – theArun

+0

@theArun我试过了。它得到了相同的结果。 –

回答

0
> group_by(cd,Date) %>% summarize(Fatalities = sum(Fatalities, na.rm = TRUE)) 
# # A tibble: 98 x 2 
#  Date Fatalities 
#  <chr>  <int> 
# 1 1908   1 
# 2 1912   5 
# 3 1913   45 
# 4 1915   40 
# 5 1916  108 
# 6 1917  124 
# 7 1918   65 
# 8 1919   5 
# 9 1920   24 
# 10 1921   68 
# ... with 88 more rows