2017-04-14 124 views
0

我尝试用一​​个例子来解释它。如何表征值的分布?

在一所学校有n班。在每个类别中有k个学生,k从1到700,n和k都是已知的。

我需要一种方法来描述每个班级学生姓名的分布情况。例如,A班有10名学生,其中3名被命名为“约翰”,3名“马克”和3名“安妮”。另一班有100名学生,每个人都被命名为“安东”。

我需要一个能够指示每个班级名称分布的测量。例如(这不重要),如果一个班级中的每个人都有相同的名字,那么它可能是1;如果同一班级中没有两个相同的名字,则该值为0。

换句话说,一种通过名称分布对类进行排序的方法。

回答

1

听起来像你想要一个“contingency table”。您可以随意选择哪些变量作为行与列来使用,但是表格条目可以是计数,也可以是类别交集中出现次数的比例。

随着例如你给:在右侧和沿底部

     Class 
        A  B 
       _________________ 
     Anne | 3 | 0 | 3 
Names Anton | 0 | 100 | 100 
     John | 3 | 0 | 3 
     Mark | 3 | 0 | 3 
    Unknown | 1 | 0 | 1 
      |--------|--------|---- 
       10  100 | 110 

值被称为“边际总计”,或者比例,“边缘分布”。右下角是您的数据总量,通过对行或列边距进行求和而获得。 (他们更好地出来了!)对于比例,总和必须是1.

相关问题