missing-data

    1热度

    3回答

    其中“缺席”可以表示nan或np.masked,取其中最容易实现的值。 例如: >>> from numpy import nan >>> do_it([1, nan, nan, 2, nan, 3, nan, nan, 4, 3, nan, 2, nan]) array([1, 1, 1, 2, 2, 3, 3, 3, 4, 3, 3, 2, 2]) # each nan is repla

    1热度

    1回答

    我有以下两个表。 SurveyTable: QID | Text ---------------------------------------- 1 | Favorite movie 2 | Favorite book 3 | Favorite city SurveyResponses: UserID | QID | Answer ---------

    0热度

    3回答

    我的数据集(DF)的样子, ID Name Rating Score Ranking 1 abc 3 NA NA 1 abc 3 12 13 2 bcd 4 NA NA 2 bcd 4 19 20 我试图删除重复使用哪 df <- df[!duplicated(df[1:2]),] 赋予, ID Name Rating

    1热度

    1回答

    以下两个R函数来自“缺少数据的灵活插补”一书(第59和63页)。第一个随机产生完全丢失(MCAR)数据,第二个随机产生丢失(MAR)数据。这两个函数都会给出大约50%的缺失值。 在MCAR函数中,我们可以通过更改p值来生成不同百分比的缺失数据。但是在MAR功能中,我不明白应该修改哪个参数来生成不同百分比的丢失数据,例如10%或30%? MCAR makemissing <- function(da

    2热度

    1回答

    我认为这是一个微不足道的问题,但我不能让它工作。 d = { 'one': pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd']), 'two': pd.Series([np.nan,6,np.nan,8], index=['a', 'b', 'c', 'd']), 'three': pd.Series([10,20,30,np

    1热度

    2回答

    我使用的是D类指定每个列的数据类型读一堆CSV文件大熊猫遗漏值: dict_tpye = {"columns_1":"int","column_2":"str"} pd.read_csv(path,dtype=dict_tpye) 我与做面临的问题这使得非浮点值的列有缺失的行,这会导致上升和错误。我该如何处理? 我想在这种情况下使用默认值,例如数字值为0,名称为空字符串。

    4热度

    3回答

    我有两个numpy数组NS,EW来加总。他们每个人都有不同位置的缺失值,像 NS = array([[ 1., 2., nan], [ 4., 5., nan], [ 6., nan, nan]]) EW = array([[ 1., 2., nan], [ 4., nan, nan], [ 6., nan, 9.]] 我如何能在numpy的方

    0热度

    1回答

    我有一个df看起来像这样,我需要运行一个代码来产生change。 change被定义为第一次永久性正面outcome(outcome = 1)。 的逻辑如下: 每个ID具有5 visits在每个visit 的change变量的outcome的值只能是1如果结果是1在visit x和其后 例如,id 2不能有change = 1在time 2因为outcome回复为负在time 3. 一个额外的皱纹

    0热度

    3回答

    我对以下问题有疑问。我有一个看起来像这样的数据: State Total AZ 1000 AZ 1000 AZ - CA - CA 4000 也就是说,我已经失踪了变量“总”的一些看法数据。我想用非遗漏的观测数据替换缺失的数值。 所需的输出 enter code here State Total AZ 1000 AZ 1000 AZ **1000** CA **4000**

    2热度

    1回答

    我想为不缺少多个值的个案计算多个新变量。对于Var.1至Var.10缺失的情况,我希望计算的变量A, B, C为SYSMIS。 示例代码: DO IF (NOT MISSING(Var.1 to Var.10)). COMPUTE A=0. COMPUTE B=0. COMPUTE C=0. END IF. 这产生多个错误: DO IF - 的参数的函数的数是不正确的。 END IF