我想在R写入数据字典功能,其中,以数据帧作为参数,将执行以下操作:数据字典中的R包装
1)创建一个文本文件,其中:
一个。通过按类别列出变量数量,观察次数,完整观察次数等总结数据框。等。
b。对于每个变量,汇总关于该变量的关键事实:平均值,最小值,最大值,模式,缺失观察值的数量等。
2)创建一个包含每个数值或整数变量的直方图和每个条形图属性变量。
其基本思想是创建一个数据框的数据字典与一个函数。
我的问题是:有没有一个包已经这样做?如果没有,人们是否认为这将是一个有用的功能? 谢谢
我想在R写入数据字典功能,其中,以数据帧作为参数,将执行以下操作:数据字典中的R包装
1)创建一个文本文件,其中:
一个。通过按类别列出变量数量,观察次数,完整观察次数等总结数据框。等。
b。对于每个变量,汇总关于该变量的关键事实:平均值,最小值,最大值,模式,缺失观察值的数量等。
2)创建一个包含每个数值或整数变量的直方图和每个条形图属性变量。
其基本思想是创建一个数据框的数据字典与一个函数。
我的问题是:有没有一个包已经这样做?如果没有,人们是否认为这将是一个有用的功能? 谢谢
有各种各样的封装describe
函数。我最熟悉的是Hmisc :: describe。以下是其帮助页面的描述:
“该函数确定变量是否是字符,因子,类别,二进制,离散数字和连续数字,并根据每个变量输出简明统计摘要。离散如果它有< = 10个唯一值在这种情况下,分位数不会被打印如果任何非二进制变量的频率表不超过20个唯一值,对于任何至少有20个唯一值的变量,打印5个最低和最高值。“
和输出的一个示例:
Hmisc::describe(work2[, c("CHOLEST","HDL")])
work2[, c("CHOLEST", "HDL")]
2 Variables 5325006 Observations
----------------------------------------------------------------------------------
CHOLEST
n missing unique Mean .05 .10 .25 .50 .75 .90
4410307 914699 689 199.4 141 152 172 196 223 250
.95
268
lowest : 0 10 19 20 31, highest: 1102 1204 1213 1219 1234
----------------------------------------------------------------------------------
HDL
n missing unique Mean .05 .10 .25 .50 .75 .90
4410298 914708 258 54.2 32 36 43 52 63 75
.95
83
lowest : -11.0 0.0 0.2 1.0 2.0, highest: 241.0 243.0 248.0 272.0 275.0
----------------------------------------------------------------------------------
此外,在您关于得到直方图点,用于描述对象将产生在上文所说明的输出交织直方图Hmisc ::胶乳法。 (你需要有一个LaTeX安装来利用这个功能。)我敢肯定,你可以在Harrell的网站或亚马逊的“Look Inside”演示文稿中找到对输出的说明。“回归建模策略”。这本书有大量关于数据分析的有用资料。
感谢您的信息 - 非常有用 - 我可以将其纳入我的功能 –
最好的做法是对它进行降价:)所以其余的可以由数据分析师或数据库所有者完成。 – Espanta