missing-data

    1热度

    1回答

    我有一个包含约80个特征的.txt数据集,其中看起来"NA"被用作缺失值的指标以及特定的实际值序串特点,如: 什么是处理这个问题的最好方法? 默认情况下,熊猫将这些"NA"值转换为"nan"。我读了如何通过从列表中删除na_vals像"NA"因此停止这样的: na_vals = ['-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A', 'N/A',

    0热度

    1回答

    复制单元格下来,我需要改变这个表: 1 a b 0.689723476 0.149916917 a b 0.200907662 0.109557062 a b 0.684007597 0.703492299 a b 0.437375902 0.074223984 a b 0.090612241 0.146617232 a b 0.526821187

    -5热度

    3回答

    我正在研究功能中缺少许多值的机器学习问题。有100个功能,我想删除那些缺少太多值的功能(它可以是缺失值超过80%的功能)。我如何用Python做到这一点。 p.s.我的数据是一个熊猫数据框。

    0热度

    1回答

    data tt; input init $ ht wt sex $ time @@; if ht=. then short=' '; else if ht<170 then short='y'; else short='n'; if wt=. then heavy=' '; else if wt<80 then heavy='y'; else wt='n'; cards; qqq

    1热度

    2回答

    我不明白如何使用predict.lm命令通过线性回归生成预测值,因为当因变量Y的某些值丢失时,即使没有丢失独立的X观察值。在代数上,这不是问题,但我不知道在R中使用它的有效方法。以例如这个假数据框和回归模型为例。我试图在源数据框中分配预测,但由于缺少一个Y值,我无法这样做:出现错误。 # Create a fake dataframe x <- c(1,2,3,4,5,6,7,8,9,10)

    0热度

    1回答

    所以我有2个数据集。 在第一个我有一天的每个小时值。例如: Date Value 05/07/2017 01:00 5 05/07/2017 02:00 10 05/07/2017 03:00 5 在第二数据集I只具有总的每天 Date Value 05/07/2017 40 ,所以我想通过所述第一数据集的相同的分布的总的第二数据集的分布。类似这样的: D

    0热度

    1回答

    我正在尝试基本的Docker &我的windows10家庭操作系统的Rails教程与Docker工具箱。 Client: 17.05.0-ce Server: 17.06.0-ce 而你好,世界的教程作品! 现在,我想这个YouTube教程:https://www.youtube.com/watch?v=KH6pcHb6Wug&lc=z12ocxayznynslzjj04chbtgiwbhu

    3热度

    1回答

    我希望有条件地使用tidyverse替换2017年7月16日之前的缺失收入。 我的数据 library(tidyverse) library(lubridate) df<- tribble( ~Date, ~Revenue, "2017-07-01", 500, "2017-07-02", 501, "2017-07-03"

    0热度

    2回答

    我有一个数据框与多个时间序列。我想删除日期中具有NA值的所有数据。 数据帧如下所示, Date Time Value 1/1/2014 0:00 30 1/1/2014 1:00 20 1/1/2014 2:00 12 1/1/2014 3:00 NA . . . 1/1/2014 23:00 23 2/1/2014 0:00 12 2/1/2014 1

    0热度

    1回答

    我在寻找一般社会调查,并试图找出是否有一个变量的一个级别比在另一个级别比例更多的NAs。这是我的df的头。 year PartyBinary agekdbrn 1 1972 Other NA 2 1972 Democrat NA 3 1972 Other NA 我还没有看到这回答已经在这里,这似乎很奇怪。我尝试了几种方法,但它们似乎都会自动删除,或者简单地忽略NA数据。例如: