missing-data

1热度

3回答

其中“缺席”可以表示nan或np.masked，取其中最容易实现的值。例如： >>> from numpy import nan >>> do_it([1, nan, nan, 2, nan, 3, nan, nan, 4, 3, nan, 2, nan]) array([1, 1, 1, 2, 2, 3, 3, 3, 4, 3, 3, 2, 2]) # each nan is repla

1热度

1回答

缺少行的SQL连接

0热度

3回答

删除重复确保NA的值R

我的数据集（DF）的样子， ID Name Rating Score Ranking 1 abc 3 NA NA 1 abc 3 12 13 2 bcd 4 NA NA 2 bcd 4 19 20 我试图删除重复使用哪 df <- df[!duplicated(df[1:2]),] 赋予， ID Name Rating

1热度

1回答

在R中生成不同百分比的MAR数据

以下两个R函数来自“缺少数据的灵活插补”一书（第59和63页）。第一个随机产生完全丢失（MCAR）数据，第二个随机产生丢失（MAR）数据。这两个函数都会给出大约50％的缺失值。在MCAR函数中，我们可以通过更改p值来生成不同百分比的缺失数据。但是在MAR功能中，我不明白应该修改哪个参数来生成不同百分比的丢失数据，例如10％或30％？ MCAR makemissing <- function(da

2热度

1回答

如何用其他系列替换熊猫数据框的子集

我认为这是一个微不足道的问题，但我不能让它工作。 d = { 'one': pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd']), 'two': pd.Series([np.nan,6,np.nan,8], index=['a', 'b', 'c', 'd']), 'three': pd.Series([10,20,30,np

1热度

2回答

手柄采用D型读取文件

我使用的是D类指定每个列的数据类型读一堆CSV文件大熊猫遗漏值： dict_tpye = {"columns_1":"int","column_2":"str"} pd.read_csv(path,dtype=dict_tpye) 我与做面临的问题这使得非浮点值的列有缺失的行，这会导致上升和错误。我该如何处理？我想在这种情况下使用默认值，例如数字值为0，名称为空字符串。

4热度

3回答

在numpy数组求和中将nan视为零除了所有数组中的nan

我有两个numpy数组NS，EW来加总。他们每个人都有不同位置的缺失值，像 NS = array([[ 1., 2., nan], [ 4., 5., nan], [ 6., nan, nan]]) EW = array([[ 1., 2., nan], [ 4., nan, nan], [ 6., nan, 9.]] 我如何能在numpy的方

0热度

1回答

使用滞后变量，按组

我有一个df看起来像这样，我需要运行一个代码来产生change。 change被定义为第一次永久性正面outcome（outcome = 1）。的逻辑如下：每个ID具有5 visits在每个visit 的change变量的outcome的值只能是1如果结果是1在visit x和其后例如，id 2不能有change = 1在time 2因为outcome回复为负在time 3. 一个额外的皱纹

0热度

3回答

用相同数据集中的非缺失替换缺失值

我对以下问题有疑问。我有一个看起来像这样的数据： State Total AZ 1000 AZ 1000 AZ - CA - CA 4000 也就是说，我已经失踪了变量“总”的一些看法数据。我想用非遗漏的观测数据替换缺失的数值。所需的输出 enter code here State Total AZ 1000 AZ 1000 AZ **1000** CA **4000**

2热度

1回答

具有缺失值和多个计算语句的SPSS - DO IF函数

我想为不缺少多个值的个案计算多个新变量。对于Var.1至Var.10缺失的情况，我希望计算的变量A, B, C为SYSMIS。示例代码： DO IF (NOT MISSING(Var.1 to Var.10)). COMPUTE A=0. COMPUTE B=0. COMPUTE C=0. END IF. 这产生多个错误： DO IF - 的参数的函数的数是不正确的。 END IF