我正在使用拨浪鼓包来做一些数据清理工作,我在数据集中考虑了第一个变量X.当我在第一个选项卡中输入“Data”选项卡时,它报告了一些基本的数据集,并且它说变量X有1243个缺失值。如果我使用sum(is.na(my_df[,1]))
,这也是我的价值。是否有不同类型的NA?
在接下来的选项卡,在“资源管理器”选项卡,当我检查“摘要”现在说,我刚才942倍的NA在变量X
我怎样才能使这些不同的数字感?我通过数据集手动浏览了一下,看了一些有NDA的行,这些NAs看起来都是一样的(我知道有时候会有不同类型的NAs)。
(边问题:sum(is.na(my_df[,1]), na.rm = FALSE)
和sum(is.na(my_df[,1]),na.rm = TRUE)
也都产生了相同数量的1243,为什么我会预料到,给我length(my_df[,1])-1243
?)
编辑这里是有这个问题的数据集:https://wetransfer.com/downloads/cf454b2c12857a4e3770102a7222422f20171019153755/516fb0。
这个数字略有不同,而不是1243,根据rattle()中的“Data”选项卡(或等效地根据summary(ten_df)
)和根据“Explore”的62个NAs,选中摘要选项卡。
但是现在我怀疑我的数据集被破坏了,因为在上传完整的数据集之前,我原本只想上传一个说明性列。但是,当我执行
ten_df = read.csv("ten.csv",sep=";")
my_df = as.data.frame(ten_df[,3])
,因为我想看看第三列与var2
和my_df
是我想最初上传,后来选择当最后一个命令返回错误
Warning messages:
1: In rep(no, length.out = length(ans)) :
'x' is NULL so the result will be NULL
而且, my_df使用拨浪鼓进行分析,拨浪鼓在底部栏中提供“0输入变量”,并在其中给出反馈。怎么会这样?
至于你身边的问题,'is.na'只能返回'TRUE/FALSE',参数'na.rm'无关。要看到这个尝试'x < - c(1:3,NaN,NA,4,5,NA);总和(is.na(X))'。至于报告缺失值的差异,很难说没有看到数据。我会信任'summary(X)'。 –
@RuiBarradas谢谢! – billyboy