missing-data

-1热度

2回答

好吧，所以我有一点困难，我知道它必须有一个解决方案。我有一个13栏的数据表，但我们只关注两个（票价和pClass）。有1309行，1308有票价值，并且我想通过基于不同类的平均值（pClass）来找到缺失的值。所以我想要的是告诉R找到一行，其中Fare = NA，读取pClass（1,2或3）中的值，然后找到指定类别的平均值，然后替换票价中的缺失值与平均水平所以我想总结你的使命，谁是勇敢和善良

0热度

1回答

是否有不同类型的NA？

我正在使用拨浪鼓包来做一些数据清理工作，我在数据集中考虑了第一个变量X.当我在第一个选项卡中输入“Data”选项卡时，它报告了一些基本的数据集，并且它说变量X有1243个缺失值。如果我使用sum(is.na(my_df[,1]))，这也是我的价值。在接下来的选项卡，在“资源管理器”选项卡，当我检查“摘要”现在说，我刚才942倍的NA在变量X 我怎样才能使这些不同的数字感？我通过数据集手动浏览了一

1热度

1回答

随机森林混合分类，数字和“不需要”的变量，其中包括缺失值

我想在R中使用随机森林包我的数据集，其中包括分类和数值变量以及一些“不需要的coloumns”（我不想将其包括在我的预测变量中）。此外，我的一些理想变量（应该被用作预测变量）缺失。我该如何处理？

2热度

3回答

熊猫保持最完整的行

可以说我有，有很多丢失的数据的数据帧： df = pd.DataFrame({'id': ['a','a','b','b','b','c','d','e','e','e'], 'q1': [1,1,np.NaN,np.NaN,0,np.NaN,1,np.NaN,1,0], 'q2': ['low',np.NaN,np.NaN,'high','low','high

0热度

2回答

R上升/下降缺少时间序列数据R

我有一组时间序列数据（特别是GPS速度数据），其中包括信号丢失时丢失值的间隔。对于缺少短时间段的情况，我将仅使用na.spline进行填充，但这对于较长的时间段不适用。我想根据预定义的加速度限制将上一个真实值的值降至零。 #create sample data frame test <- as.data.frame(c(6,5.7,5.4,5.14,4.89,4.64,4.41,4.19,NA,

1热度

1回答

R中的错误（）在R

我正在学习随机森林。为了学习目的，我使用以下链接random Forest。我正在尝试使用我的R-3.4.1运行此链接中给出的代码。但在运行下面的代码缺失值处理 mp2 <- impute(data = test,target = "target",classes = list(integer=imputeMedian(), factor=imputeMode())) 我收到错误消息Err

1热度

1回答

为什么不在R中计算函数不能计算所有NA值

在我的数据集中，我有大约40％的缺失值。所以我使用e1071包中的impute()。我用下面的代码来根据它们的中位数来推算整型变量的缺失值，并通过它们的模式缺少字符变量的值。 library(mlr) imp1 <- impute(obj = as.data.frame(train_prop), target=character(0), classes = list(intege

3热度

1回答

如何将缺失值转换为字符串？

我有一个DeedleDataFrame类型Frame<int,string>它包含一些缺失的值。我想将缺失的值转换为空字符串""。我尝试使用valueOr函数，但这没有帮助。有没有办法做到这一点？这里是我的DataFrame： let s1 = Series.ofOptionalObservations [ 1 => Some("A"); 2 => None ] let s2 = Series

0热度

1回答

request.get使用undefined/[object]移除对象

我是node.js的新手，以及它处理API的方式。我使用一个API来获取颇像这 { total: 1, skip: 0, page_size: 10, buy: { total: 1, listings: [ [Object] ], fold: false }, sell: [] } 在buy.listings 数据被认为是一大阵，有很多的东西，但它

0热度

1回答

使用dplyr填充缺少的分类值group_by

我有一个不完整的数据框，我想填充缺少的值以匹配组。 incomplete_table <- tibble(id = c(1,1,2,2,3,3,3), value = c("a",NA,"b","b","c","d", NA)) # # A tibble: 7 x 2 # id value # <dbl> <chr> # 1 1 a # 2 1 <NA>