我目前正在一个项目中,我有一个庞大的数据框,16196 obs的25个变量。目标是消除可能出现在每种特定治疗的数据框中的任何异常值。问题是具有治疗的柱子在那里有每种治疗,并且每种治疗具有不同的持续时间。让我给你看一个例子。通过匹配相似的行解构R中的列?
val_lvl2:字符 “颈椎椎间融合(脊柱融合)”, “非手术治疗”, “非手术治疗”, “非手术治疗” ...
prd_num_of_days_num:NUM 167 46 46 46 167 46 46 46 167 46 ...
输出来自STR(z_combined_cost_dtrmnt)
我们可以看到val_lvl2拥有所有的治疗(100+未显示)。而prd_num_of_days_num具有该特定治疗的长度。现在我想要做的就是将所有的“颈椎融合”数据和“非手术治疗”数据合并到一起,然后将它们放入自己的小数据框中。之后,我想对治疗的长度创建95%的置信度,然后删除任何不属于该CI的数据行。然后带回数据框,以便我们再次有一个大数据框,但每种处理中的异常数据都没有了。
我将不胜感激任何帮助,因为我真的不知道从哪里开始,因为看起来没有简单的方法按照我想要的方式来分解数据帧。
目前正在考虑使用聚合函数。
AGG < - 骨料(z_combined_cost_dtrmnt $ prd_num_of_days_num,通过=名单(val_lvl2 = z_combined_cost_dtrmnt $ val_lvl2),由=名单(val_lvl3 = z_combined_cost_dtrmnt $ val_lvl3),FUN = SD)
但是它给出了这个错误:错误在aggregate.data.frame(as.data.frame(X),...):正式的说法 “由” 由多个实际参数
TL/DR
大数据帧匹配 - >
小型数据框es基于val_lvl2中的唯一值记住存在类似的唯一值,即多个“Cervical Fusion”实例应该位于相同的小数据框中 - >
基于prd_num_of_days_num(长度)创建95%CI处理)的每个小数据帧的 - >
卸下整行的每个唯一值,如果是prd_num_of_days_num CI之外 - >
再次与没有异常值小的数据帧合并为一个大的数据帧。
欢迎组织数据R.到StackOverflow的把握。请提供[MCVE] –
嘿@StevenBeaupré!我目前的想法是可能尝试聚合。这是迄今为止我所拥有的。 AGG < - 骨料(z_combined_cost_dtrmnt $ prd_num_of_days_num,通过=列表(val_lvl2 = z_combined_cost_dtrmnt $ val_lvl2),由=列表(val_lvl3 = z_combined_cost_dtrmnt $ val_lvl3),FUN = SD) 然而,让此错误:在聚合 错误.data.frame(as.data.frame(x),...): 形式参数“by”由多个实际参数匹配 – nazgulian