数据字典中的R包装

我想在R写入数据字典功能，其中，以数据帧作为参数，将执行以下操作：数据字典中的R包装

1）创建一个文本文件，其中：

一个。通过按类别列出变量数量，观察次数，完整观察次数等总结数据框。等。

b。对于每个变量，汇总关于该变量的关键事实：平均值，最小值，最大值，模式，缺失观察值的数量等。

2）创建一个包含每个数值或整数变量的直方图和每个条形图属性变量。

其基本思想是创建一个数据框的数据字典与一个函数。

我的问题是：有没有一个包已经这样做？如果没有，人们是否认为这将是一个有用的功能？谢谢

来源

2011-10-08 Ross Farrelly

最好的做法是对它进行降价:)所以其余的可以由数据分析师或数据库所有者完成。 – Espanta

有各种各样的封装describe函数。我最熟悉的是Hmisc :: describe。以下是其帮助页面的描述：

“该函数确定变量是否是字符，因子，类别，二进制，离散数字和连续数字，并根据每个变量输出简明统计摘要。离散如果它有< = 10个唯一值在这种情况下，分位数不会被打印如果任何非二进制变量的频率表不超过20个唯一值，对于任何至少有20个唯一值的变量，打印5个最低和最高值。“

和输出的一个示例：

Hmisc::describe(work2[, c("CHOLEST","HDL")]) 
work2[, c("CHOLEST", "HDL")] 

2 Variables  5325006 Observations 
---------------------------------------------------------------------------------- 
CHOLEST 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410307 914699  689 199.4  141  152  172  196  223  250 
    .95 
    268 

lowest : 0 10 19 20 31, highest: 1102 1204 1213 1219 1234 
---------------------------------------------------------------------------------- 
HDL 
     n missing unique Mean  .05  .10  .25  .50  .75  .90 
4410298 914708  258 54.2  32  36  43  52  63  75 
    .95 
    83 

lowest : -11.0 0.0 0.2 1.0 2.0, highest: 241.0 243.0 248.0 272.0 275.0 
----------------------------------------------------------------------------------

此外，在您关于得到直方图点，用于描述对象将产生在上文所说明的输出交织直方图Hmisc ::胶乳法。（你需要有一个LaTeX安装来利用这个功能。）我敢肯定，你可以在Harrell的网站或亚马逊的“Look Inside”演示文稿中找到对输出的说明。“回归建模策略”。这本书有大量关于数据分析的有用资料。

来源

2011-10-08 08:36:30

感谢您的信息 - 非常有用 - 我可以将其纳入我的功能 –

数据字典中的R包装

回答

相关问题