2011-10-08 81 views
7

我想在R写入数据字典功能,其中,以数据帧作为参数,将执行以下操作:数据字典中的R包装

1)创建一个文本文件,其中:

一个。通过按类别列出变量数量,观察次数,完整观察次数等总结数据框。等。

b。对于每个变量,汇总关于该变量的关键事实:平均值,最小值,最大值,模式,缺失观察值的数量等。

2)创建一个包含每个数值或整数变量的直方图和每个条形图属性变量。

其基本思想是创建一个数据框的数据字典与一个函数。

我的问题是:有没有一个包已经这样做?如果没有,人们是否认为这将是一个有用的功能? 谢谢

+0

最好的做法是对它进行降价:)所以其余的可以由数据分析师或数据库所有者完成。 – Espanta

回答

6

有各种各样的封装describe函数。我最熟悉的是Hmisc :: describe。以下是其帮助页面的描述:

“该函数确定变量是否是字符,因子,类别,二进制,离散数字和连续数字,并根据每个变量输出简明统计摘要。离散如果它有< = 10个唯一值在这种情况下,分位数不会被打印如果任何非二进制变量的频率表不超过20个唯一值,对于任何至少有20个唯一值的变量,打印5个最低和最高值。“

和输出的一个示例:

Hmisc::describe(work2[, c("CHOLEST","HDL")]) 
work2[, c("CHOLEST", "HDL")] 

2 Variables  5325006 Observations 
---------------------------------------------------------------------------------- 
CHOLEST 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410307 914699  689 199.4  141  152  172  196  223  250 
    .95 
    268 

lowest : 0 10 19 20 31, highest: 1102 1204 1213 1219 1234 
---------------------------------------------------------------------------------- 
HDL 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410298 914708  258 54.2  32  36  43  52  63  75 
    .95 
    83 

lowest : -11.0 0.0 0.2 1.0 2.0, highest: 241.0 243.0 248.0 272.0 275.0 
---------------------------------------------------------------------------------- 

此外,在您关于得到直方图点,用于描述对象将产生在上文所说明的输出交织直方图Hmisc ::胶乳法。 (你需要有一个LaTeX安装来利用这个功能。)我敢肯定,你可以在Harrell的网站或亚马逊的“Look Inside”演示文稿中找到对输出的说明。“回归建模策略”。这本书有大量关于数据分析的有用资料。

+0

感谢您的信息 - 非常有用 - 我可以将其纳入我的功能 –