2010-10-25 463 views
1

我有一个数据集在一个字段中有一些空值。当我尝试运行线性回归时,它将字段中的整数视为类别指示符,而不是数字。如何忽略R中的空值?

例如,为不包含空值的字段...

summary(lm(rank ~ num_ays, data=a)), 

返回:

Coefficients: 
      Estimate Std. Error t value Pr(>|t|)  
(Intercept) 10.607597 0.019927 532.317 < 2e-16 *** 
num_ays  0.021955 0.007771 2.825 0.00473 ** 

但是当我运行与空值的字段相同的模型,我得到:

Coefficients: 
       Estimate Std. Error t value Pr(>|t|)  

(Intercept) 1.225e+01 1.070e+00 11.446 < 2e-16 *** 
num_azs0 -1.780e+00 1.071e+00 -1.663 0.09637 . 
num_azs1 -1.103e+00 1.071e+00 -1.030 0.30322  
num_azs10 -9.297e-01 1.080e+00 -0.861 0.38940  
num_azs100 1.750e+00 5.764e+00 0.304 0.76141  
num_azs101 -6.250e+00 4.145e+00 -1.508 0.13161  

什么是最好的和/或最有效的方式来处理这个,什么是权衡?

+0

说到空你有'NA'记住? 'num_azs'是否是'因素'有可能?看起来像不是我清理的数据... – Marek 2010-10-25 19:50:43

+0

我不认为这是一个因素。 num_ays和num_azs都来自MySQL导出。两者的字段类型都是整数,但num_azs可以包含空值。 – Dan 2010-10-25 19:56:23

+0

摘要(一)说你的数据列是什么?我猜一个非数字值导致转换为因子。解决方案是使用as.numeric(as.character(foo))转换为数字 – Spacedman 2010-10-25 20:52:32

回答

2

,并建立对巴蒂尔的回答是:你可以使用在data=说法lm()

summary(lm(rank ~ num_ays, data=a[!is.null(a$num_ays),])) 
+0

谢谢,Dirk。我尝试过,但它仍然将列中的数字视为类别标签......与以前相同的结果。我是否还错过了其他的东西? – Dan 2010-10-25 19:50:17

+0

你正在被因素绊倒。这是一个不同的问题。尝试搜索“[r]因子”(即R中标记为“[r]”的帖子中的术语“因子”)。您需要以不同方式读取数据,和/或将其转换。 – 2010-10-25 20:34:34

+1

使用'lm'的'subset'参数不是更好吗? – Marek 2010-10-25 21:59:01

3

可以忽略空值,像这样:

a[!is.null(a$num_ays),] 
+0

谢谢,谢恩。我尝试使用:summary(lm(rank_num_ays,data = a [!is.null(a $ num_ays)]))。不过,它给了我相同的输出。 – Dan 2010-10-25 19:44:52

+1

如果object为NULL,则is.null返回TRUE,否则返回FALSE。所以你的构造函数会返回'a'行或0行'data.frame'的所有行。我很确定你在考虑'is.na';) – Marek 2010-10-26 07:23:57