missing-data

0热度

1回答

我需要基于分组填写基于先前值和/或前向值的缺失值。我想用dplyr完成这个工作（虽然data.table解决方案也会受到欢迎）。的样本数据： testing <- tibble(key = c(10,10,10,10,10,10,20,20,20,20,20,20), year = c(15,15,16,16,17,17,15,15,16,16,17,17),

1热度

1回答

基于公式获取数据框的完整案例

我有一个面板数据的数据框，我想获得基于公式的所有完整的观察结果。虽然从公式中提取变量非常简单（使用get_all_vars），但我还想在公式中引入延迟（在本例中为dplyr包）。让我们的表现公式： y ~ x1 + lag(x2, 1) + lag(x3, 2) 和数据帧 y x1 x2 x3 1 2 3 NA NA 2 3 2 2 2 3 2 6 5 3 4 5 8 6 9 5

1热度

1回答

填充数据帧，丢失的数据

说明我看了表有三列：ID，时间和位置创建一个数据帧。 ID是第一个索引，时间是第二个索引。我希望时间频率是五分钟，如果相应时间没有数据，请将位置设置到最后一个位置（请参见下表）。数据框现在 ID time place 001 00:00:00 1 00:15:00 3 002 00:05:00 2 希望数据框获得 ID time place 001 00:00

0热度

2回答

在R中的data.table中删除NA

我想在R中做一些显然非常简单的事情（对不起，但我对data.tables非常新手），但我没有设法得到正确的解决方案。我试着删除特定列与NA值的行（“Ground_Tru”这是我尝试为止; all_data <- fread ("all_vbles.txt",header=TRUE, na.strings=c("NA","N/A","")) na.omit (all_data, cols="Gro

1热度

1回答

如何使用与其他两列匹配的python填充数据集中的空值？

我有一个泰坦尼克号数据集。它具有属性和我正在努力 1.年龄 2.Embark（从哪个港口乘客上船..总共有3个港口...... S，Q和C） 3.生存（0没有生还，1为生存）我过滤了无用的数据。然后我需要填写Age中的空值。所以我计算了多少乘客幸存下来，并没有在每次登船后幸存下来，即S，Q和C 我发现从每个S，Q和C端口出发后幸存的和没有幸存的乘客的平均年龄。但是现在我不知道如何在原始泰坦年龄列

2热度

1回答

R：如何将累积值拆分为数据框中的缺失值？

我还是R的新手。从这个示例表中，您可以清楚地看到差异列上有一些累计值。因此，如何将这些值传播到NA值，这些值会将许多行累积到一行中，因为我的设备在某些时段记录值出现缺失值时出现问题，但他们在未来一小时仍可以获得正确的值。我的示例数据： DateTime diff1 diff2 1 2017-06-11 05:00:00 366 25 2 2017-06-1

2热度

1回答

将熊猫数据框转换为橙色数据表

我正在用熊猫数据框打开，我想将其转换为橙色数据表来补偿丢失的值。我的数据框看起来像 locationId rank Rating type value 1 1 10 shop 2.668 2 4 8 store 3.921 3 3 NAN shop 3.122 其中排名为序1和5.Type是分类与类型的车间，商店等与评级之间的重复值的整数type.value是浮点。我

2热度

1回答

当读取到data.table时，R坏行数据未显示，但写入文件

样本输入制表符分隔的文本文件，请注意此源文件中有不良数据，第3行末尾的封闭“ 。因此，有1个完整的空白行，然后只用双引号字符一条线，然后继续保持良好的数据对下一行。 id ca cb cc cd 1 hi bye hey nope 2 ab cd ef "quoted text here" 3 gh ij kl "quoted text but end quote

0热度

1回答

R - 有没有办法来限制由'mi'计算的值的范围？（使用Kaggle Titanic数据集）

我一直在研究R-bloggers上的How to perform a Logistic Regression in R教程，其中使用了Kaggle Titanic challenge的数据集。所有帖子中的代码都可以在here找到。为891名乘客都包含在这组数据（891行）和177 数据已经丢失Age值：有训练数据集存在丢失的数据 type missing method model

0热度

1回答

提取R中估计协方差参数的协方差矩阵？

我试图在模式混合模型上运行一个模拟，并且需要R（在非结构化下）的“估计的渐近协方差矩阵或估计协方差参数的协方差矩阵”。我知道这将通过SAS中的AsyCov和SPSS中的混合模型来实现。但我不知道为什么asyCov（metaSEM包）的结果与SAS和SPSS输出不一致。这里是我的SAS代码： proc Mixed data=OutcomeSort method=reml asycov covt