2017-08-02 62 views
1

我有一个数据框,其中包含若干数值列,其逗号类为 ,这是为了将数据框保存到excel文件并以excel逗号格式显示 数字列使用Openxlsx软件包。使用dplyr包时保留逗号类

现在,当我使用dplyr包进行分组和总结数据时,逗号类将从数字列中丢失。

是否有可能以某种方式使用dplyr包并仍保留原始逗号类?

这里是逗号类中的数据帧:

library(tidyverse) 
library(stringr) 

set.seed(10) 
df_central_database <- data.frame(Category = as.character(sample(words[1:10], size = 50, replace = TRUE)) , 
      Summ_Income =sample(1000:10000, size = 50, replace = TRUE), 
      Summ_Securities =sample(1000:10000, size = 50, replace = TRUE), 
      Summ_Bonds =sample(1000:10000, size = 50, replace = TRUE), 
      Summ_Options =sample(1000:10000, size = 50, replace = TRUE) 
      ) 


class(df_central_database$Summ_Income) <- "comma" 
class(df_central_database$Summ_Securities) <- "comma" 
class(df_central_database$Summ_Bonds) <- "comma" 
class(df_central_database$Summ_Options) <- "comma" 


str(df_central_database) 

'data.frame': 50 obs. of 5 variables: 
$ Category  : Factor w/ 10 levels "a","able","about",..: 6 4 5 7 1 3 3 3 7 5 ... 
$ Summ_Income :Class 'comma' int [1:50] 4189 9428 3213 5258 2724 6249 5135 5207 4598 5548 ... 
$ Summ_Securities:Class 'comma' int [1:50] 4099 1551 4321 4668 9229 8999 9854 5295 7242 4832 ... 
$ Summ_Bonds  :Class 'comma' int [1:50] 8916 2774 1625 2416 4001 2620 2318 3615 9425 1922 ... 
$ Summ_Options :Class 'comma' int [1:50] 3008 5823 6963 8633 2342 7031 7855 9988 3369 8967 ... 

现在用dplyr包组和总结重置新的数据帧列回INT:

df_rep1 <- df_central_database %>% 
    group_by(Category) %>% 
    summarise_all(.funs = sum) 

str(df_rep1) 

Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 10 obs. of 5 variables: 
$ Category  : Factor w/ 10 levels "a","able","about",..: 1 2 3 4 5 6 7 8 9 10 
$ Summ_Income : int 23632 24434 48506 28288 26662 22076 19452 22832 25071 3469 
$ Summ_Securities: int 20390 20588 48728 31054 31550 33387 25930 28458 35604 8760 
$ Summ_Bonds  : int 21531 23576 33218 29206 26030 25966 34724 30306 36029 7113 
$ Summ_Options : int 24345 31356 54054 28524 44705 28161 35068 25267 28022 5713 

是否有可能以某种方式防止dplyr重置班级?这里

感谢 拉斐尔

+1

所以总结然后转换类。我通过dplyr提供了一个函数[here](https://stackoverflow.com/a/45415788/5635580)。所以如果你做了'df_central_database%>% group_by(Category)%>% summarise_all(.funs = sum)%>%mutate_at(vars(contains('Summ')),funs(f1))',那么类将是'逗号' – Sotos

回答

2

的问题是,逗号级的sum返回整数类。你可以通过编写一个逗号类对象总和的方法来解决这个问题。

做一个测试向量:

> z = 1:10 
> class(z)="comma" 

总和是类的不是:

> sum(z) 
[1] 55 

所以写的方法:

> sum.comma = function(...,na.rm=FALSE){val = NextMethod();class(val)="comma";val} 

,现在是:

> sum(z) 
[1] 55 
attr(,"class") 
[1] "comma" 

所以,现在你dplyr例如:

> df_rep1 <- df_central_database %>% 
+ group_by(Category) %>% 
+ summarise_all(.funs = sum) 
> 
> str(df_rep1) 
Classes ‘tbl_df’, ‘tbl’ and 'data.frame': 10 obs. of 5 variables: 
$ Category  : Factor w/ 10 levels "a","able","about",..: 1 2 3 4 5 6 7 8 9 10 
$ Summ_Income :Class 'comma' int [1:10] 23632 24434 48506 28288 26662 22076 19452 22832 25071 3469 
$ Summ_Securities:Class 'comma' int [1:10] 20390 20588 48728 31054 31550 33387 25930 28458 35604 8760 
$ Summ_Bonds  :Class 'comma' int [1:10] 21531 23576 33218 29206 26030 25966 34724 30306 36029 7113 
$ Summ_Options :Class 'comma' int [1:10] 24345 31356 54054 28524 44705 28161 35068 25267 28022 5713 
> 

它使阶级。是的,你将不得不为你想要应用于你的课程的任何功能编写方法。 S3类是作为属性实现的,而R有习惯尽早丢弃它们。

这可能只是更容易编写fixup

result = fixup(result, source, "comma") 

返回result但是类“逗号”的在source设置为类“逗号”相同名称的列。

相关问题