2014-09-29 123 views
1

我在KhanAcademy.com上关于框图的例子。R汇总功能

我试图模拟问题中的R用下面的代码

x <- c(13,9,11,8,8,12,9,9,4,12,10,8,11) 
summary(x) 
Min. 1st Qu. Median Mean 3rd Qu. Max. 
4.000 8.000 9.000 9.538 11.000 13.000 

KA的萨尔指出,有越来越在正中一个因素是否计算1时区别在于四对两种方式和第三四分位数。

有没有办法在计算其他四分位数时告诉您要排除中位数的汇总函数。

如果这种方法被认为是

Min. 1st Qu. Median Mean 3rd Qu. Max. 
4.000 8.000 9.000 9.538 *11.500* 13.000 

怎么会没有就如何解决这些问题的方法一致的答案?

+3

这 - http://chemicalstatistician.wordpress.com/2013/08/12/exploratory-data-analysis-the-5-number-summary-two-different-methods-in-r-2/ - 有一个关于'summary','fivenum'和'quantile'函数之间的区别可能会对您有所帮助。 ''quantile'还解释了(有点)你的'为什么'的问题,尽管这个问题应该在[交叉验证](http://stats.stackexchange.com/) – hrbrmstr 2014-09-29 10:16:49

回答

1

实际上有9种类型的quantile可在R请参阅?quantile欲了解更多信息如何定义,哪些统计软件实现哪些,并为他们的推导的参考。你都可以看到他们在这里:

t(sapply(1:9, function(y) quantile(x,type=y))) 
     0% 25% 50%  75% 100% 
[1,] 4 8 9 11.00000 13 
[2,] 4 8 9 11.00000 13 
[3,] 4 8 9 11.00000 13 
[4,] 4 8 9 11.00000 13 
[5,] 4 8 9 11.25000 13 
[6,] 4 8 9 11.50000 13 
[7,] 4 8 9 11.00000 13 
[8,] 4 8 9 11.33333 13 
[9,] 4 8 9 11.31250 13 

正如你会发现,你的数据只有在第三个四分位数的变化。 R的默认值是类型7,这就是你将从summary得到的结果。