missing-data

    0热度

    1回答

    我需要基于分组填写基于先前值和/或前向值的缺失值。我想用dplyr完成这个工作(虽然data.table解决方案也会受到欢迎)。 的样本数据: testing <- tibble(key = c(10,10,10,10,10,10,20,20,20,20,20,20), year = c(15,15,16,16,17,17,15,15,16,16,17,17),

    1热度

    1回答

    我有一个面板数据的数据框,我想获得基于公式的所有完整的观察结果。 虽然从公式中提取变量非常简单(使用get_all_vars),但我还想在公式中引入延迟(在本例中为dplyr包)。 让我们的表现公式: y ~ x1 + lag(x2, 1) + lag(x3, 2) 和数据帧 y x1 x2 x3 1 2 3 NA NA 2 3 2 2 2 3 2 6 5 3 4 5 8 6 9 5

    1热度

    1回答

    说明 我看了表有三列:ID,时间和位置创建一个数据帧。 ID是第一个索引,时间是第二个索引。我希望时间频率是五分钟,如果相应时间没有数据,请将位置设置到最后一个位置(请参见下表)。 数据框现在 ID time place 001 00:00:00 1 00:15:00 3 002 00:05:00 2 希望数据框获得 ID time place 001 00:00

    0热度

    2回答

    我想在R中做一些显然非常简单的事情(对不起,但我对data.tables非常新手),但我没有设法得到正确的解决方案。我试着删除特定列与NA值的行(“Ground_Tru”这是我尝试为止; all_data <- fread ("all_vbles.txt",header=TRUE, na.strings=c("NA","N/A","")) na.omit (all_data, cols="Gro

    1热度

    1回答

    我有一个泰坦尼克号数据集。它具有属性和我正在努力 1.年龄 2.Embark(从哪个港口乘客上船..总共有3个港口...... S,Q和C) 3.生存(0没有生还,1为生存) 我过滤了无用的数据。然后我需要填写Age中的空值。所以我计算了多少乘客幸存下来,并没有在每次登船后幸存下来,即S,Q和C 我发现从每个S,Q和C端口出发后幸存的和没有幸存的乘客的平均年龄。但是现在我不知道如何在原始泰坦年龄列

    2热度

    1回答

    我还是R的新手。从这个示例表中,您可以清楚地看到差异列上有一些累计值。因此,如何将这些值传播到NA值,这些值会将许多行累积到一行中,因为我的设备在某些时段记录值出现缺失值时出现问题,但他们在未来一小时仍可以获得正确的值。 我的示例数据: DateTime diff1 diff2 1 2017-06-11 05:00:00 366 25 2 2017-06-1

    2热度

    1回答

    我正在用熊猫数据框打开,我想将其转换为橙色数据表来补偿丢失的值。 我的数据框看起来像 locationId rank Rating type value 1 1 10 shop 2.668 2 4 8 store 3.921 3 3 NAN shop 3.122 其中排名为序1和5.Type是分类与类型的车间,商店等与评级之间的重复值的整数type.value是浮点。 我

    2热度

    1回答

    样本输入制表符分隔的文本文件,请注意此源文件中有不良数据,第3行末尾的封闭“ 。因此,有1个完整的空白行,然后只用双引号字符一条线,然后继续保持良好的数据对下一行。 id ca cb cc cd 1 hi bye hey nope 2 ab cd ef "quoted text here" 3 gh ij kl "quoted text but end quote

    0热度

    1回答

    我一直在研究R-bloggers上的How to perform a Logistic Regression in R教程,其中使用了Kaggle Titanic challenge的数据集。所有帖子中的代码都可以在here找到。为891名乘客都包含在这组数据(891行)和177 数据已经丢失Age值: 有训练数据集存在丢失的数据 type missing method model

    0热度

    1回答

    我试图在模式混合模型上运行一个模拟,并且需要R(在非结构化下)的“估计的渐近协方差矩阵或估计协方差参数的协方差矩阵”。 我知道这将通过SAS中的AsyCov和SPSS中的混合模型来实现。 但我不知道为什么asyCov(metaSEM包)的结果与SAS和SPSS输出不一致。 这里是我的SAS代码: proc Mixed data=OutcomeSort method=reml asycov covt