2016-07-26 37 views
0

如何确定哪些疾病聚集在一起?我有一个数据集与病人和他们的疾病。如果他们拥有它,则编码为HOHT = 1,如果他们没有它,则编码为HOHT = 0。确定哪个疾病聚集在一起

下面是一个数据的例子。如何确定哪些疾病最常发生在对方身上,而无需撰写大量的言论呢?目标是创建一些像维恩图或显示疾病重叠的树状图。

Moya Hypothyroid Hyperthyroid Celiac 
    1  1   0    0 
    1  1   0    0  
    0  0   1    1 
    0  0   0    0 
    1  1   0    0 
    1  0   1    0 
    1  1   0    0 
    1  1   0    0 
    0  0   1    1 
    0  0   1    1 

回答

1

我能想到的最简单的办法是必须通过proc corr看看相关矩阵:

data diseases; 
input Moya Hypothyroid Hyperthyroid Celiac; 
cards; 
    1  1   0    0 
    1  1   0    0  
    0  0   1    1 
    0  0   0    0 
    1  1   0    0 
    1  0   1    0 
    1  1   0    0 
    1  1   0    0 
    0  0   1    1 
    0  0   1    1 
    ; 
run; 

proc corr data = diseases out = disease_corr; run; 

有各种其他的选择,但我不知道这个问题是否是真的非常适合这个网站,因为它非常广泛,更关于统计而不是编程。如果遇到更具体的问题,可随时提出另一个问题。