2016-10-22 168 views
0

我有以下数据框:在数据帧创建百分比新列

dput(df1) 

structure(list(month = c(1, 1, 2, 2, 3, 4), transaction_type = c("AAA", 
"BBB", "BBB", "CCC", 
"DDD", "AAA"), max_wt_per_month = c(54.9, 
51.6833333333333, 52.3333333333333, 49.4666666666667, 49.85, 
48.5833333333333), min_wt_per_month = c(0, 0, 0, 0, 0, 0), avg_wt_per_month = c(8.41701333107861, 
7.65211141060198, 6.44184012508551, 7.74798927613941, 7.4360566888844, 
7.50611319574734), prop = c(Inf, Inf, Inf, Inf, Inf, Inf)), .Names = c("month", 
"transaction_type", "max_wt_per_month", "min_wt_per_month", "avg_wt_per_month", 
"prop"), row.names = c(NA, -6L), class = c("grouped_df", "tbl_df", 
"tbl", "data.frame"), vars = list(month), drop = TRUE, indices = list(
    0:5), group_sizes = 6L, biggest_group_size = 6L, labels = structure(list(
    month = 1), row.names = c(NA, -1L), class = "data.frame", vars = list(
    month), drop = TRUE, .Names = "month")) 

我想创建列prop将包含的最长等待时间的百分比相对于每个月。如果我运行此代码,然后我得到Inf值在大多数的行...(尤其是它在真实数据集是显而易见的):

my_fun=function(vec){ 
    100*as.numeric(vec[3])/
    sum(with(data_merged_transactions, ifelse(month == vec[1], max_wt_per_month, 0))) } 
data_merged_transactions$prop=apply(data_merged_transactions , 1 , my_fun) 

我后来终于需要创建填充区域图,使每个区域将是一个百分比超出了100%:

ggplot(data_merged_transactions, aes(x=month, y=prop, fill=transaction_type)) + 
    geom_area(alpha=0.6 , size=1, colour="black") 

为什么我得到Inf如果总和不等于0? 此外,是否可以创建以月份为因子(1月,2月等)的填充面积图,而不是数字?我试图用月份名称替换月份ID,但是后来我得到了很细的条而不是填充的区域。

+0

你能给我们提供原始数据帧的输出吗?我正在努力导入你发布的那个?您还可以详细说明“每月最大等待时间的百分比”与数据集中其他变量的关系? – biomiha

+0

@biomiha:真实的数据集很大。我刚刚发布了'dput(head(df))'。最大等待时间上的%意味着MAX_WT [AAA,1月]/SUM(MAX_WT [january])',其中max_wt是第3列,AAA是特定行的transaction_type。 – FiofanS

回答

1

这是你在找什么?

library(tidyverse) 
df1_tidy <- df1 %>% 
       group_by(month) %>% 
       summarise(SUM = sum(max_wt_per_month)) %>% 
       full_join(df1) %>% 
       mutate(prop = max_wt_per_month/SUM) 


ggplot(data = df1_tidy, 
     aes(x = month, 
      y = prop, 
      fill = transaction_type)) + 
    geom_area(alpha = 0.6, 
      size = 1, 
      colour = "black") + 
    scale_x_continuous(labels = c("Jan", "Feb", "Mar", "Apr")) 
+0

是的,对!非常感谢你!有了完整的数据集,它看起来不错。您能否回答与月份编号有关的其他子问题(X轴)。是否可以显示月份名称而不是索引?如果不可能,那么我怎么能像1,2,3..12一样显示所有月份,但不是像现在这样显示2.5,5,7.5? – FiofanS

+0

我认为重新标记轴是最快/最简单的。我通过添加'scale_x_continuous(labels = c(“Jan”,“Feb”,“Mar”,“Apr”))'来调整我的答案。现在,显然在示例数据集中,您只有4个月的时间,所以如果您的整个数据集包含全部12个数据集,请将它们全部添加到标签向量中。 – biomiha

+0

它提供了一个错误'f(...,self = self)中的错误:中断和标签是不同的长度。我检查了'df1_tidy'包含了12个月的数据,并且我在'c(“Jan”,“Feb”,...)中放了12个月的名字。你知道为什么会发生?看起来我也应该定义中断的数量。 – FiofanS