2010-02-18 130 views

回答

213

由于(仍)没有人得到复选标记,我假设你有一些实际问题,主要是因为你没有指定要转换为numeric的矢量类型。我建议你应该使用transform函数来完成你的任务。

现在我要证明某些 “转换异常”:

# create dummy data.frame 
d <- data.frame(char = letters[1:5], 
       fake_char = as.character(1:5), 
       fac = factor(1:5), 
       char_fac = factor(letters[1:5]), 
       num = 1:5, stringsAsFactors = FALSE) 

让我们在data.frame

> d 
    char fake_char fac char_fac num 
1 a   1 1  a 1 
2 b   2 2  b 2 
3 c   3 3  c 3 
4 d   4 4  d 4 
5 e   5 5  e 5 

都一目了然,让我们运行:

> sapply(d, mode) 
     char fake_char   fac char_fac   num 
"character" "character" "numeric" "numeric" "numeric" 
> sapply(d, class) 
     char fake_char   fac char_fac   num 
"character" "character" "factor" "factor" "integer" 

现在你可能会问自己“异常在哪里?”好吧,我在R中碰到了很奇怪的东西,这不是最混乱的东西,但它可能会让你困惑,尤其是如果你在躺在床上之前阅读它。

这里是:前两列是character。我特意拨打了2 一个fake_char。找出这个character变量与Dirk在他的回复中创建的变量的相似性。它实际上是一个numerical矢量转换为character。 3 rd和4 th列是factor,最后一个是“纯粹”numeric

如果您使用transform函数,则可以将fake_char转换为numeric,但不是char变量本身。

> transform(d, char = as.numeric(char)) 
    char fake_char fac char_fac num 
1 NA   1 1  a 1 
2 NA   2 2  b 2 
3 NA   3 3  c 3 
4 NA   4 4  d 4 
5 NA   5 5  e 5 
Warning message: 
In eval(expr, envir, enclos) : NAs introduced by coercion 

,但如果你对fake_charchar_fac做同样的事情,你会很幸运,并没有NA的闪避:

> transform(d, fake_char = as.numeric(fake_char), 
       char_fac = as.numeric(char_fac)) 

    char fake_char fac char_fac num 
1 a   1 1  1 1 
2 b   2 2  2 2 
3 c   3 3  3 3 
4 d   4 4  4 4 
5 e   5 5  5 5 

如果您保存转化data.frame和检查modeclass,你会得到:

> D <- transform(d, fake_char = as.numeric(fake_char), 
        char_fac = as.numeric(char_fac)) 

> sapply(D, mode) 
     char fake_char   fac char_fac   num 
"character" "numeric" "numeric" "numeric" "numeric" 
> sapply(D, class) 
     char fake_char   fac char_fac   num 
"character" "numeric" "factor" "numeric" "integer" 

因此,得出的结论是:是的,您可以将character载体转换为numeric载体,但前提是其元素可“转换”为numeric如果向量中只有一个character元素,则在尝试将该向量转换为numerical之一时会出错。

而只是为了证明我的观点:

> err <- c(1, "b", 3, 4, "e") 
> mode(err) 
[1] "character" 
> class(err) 
[1] "character" 
> char <- as.numeric(err) 
Warning message: 
NAs introduced by coercion 
> char 
[1] 1 NA 3 4 NA 

而现在,只是为了好玩(或实习),尝试去猜测这些命令的输出:

> fac <- as.factor(err) 
> fac 
??? 
> num <- as.numeric(fac) 
> num 
??? 

亲切问候帕特里克·伯恩斯! =)

+4

'stringsAsFactors = FALSE'对于在数据文件中读取时很重要。 – 2015-02-19 06:49:56

+2

我知道这是旧的...但...为什么你选择变换()通过df $ fake_char < - as.integer(df $ fake_char)?在R中执行相同的操作有多种方式,并且我很难理解这种“正确”的方式。谢谢。 – ripvlan 2016-07-27 17:50:17

60

如果x是数据框dat的列名,x是类型的因素,使用方法:

as.numeric(as.character(dat$x)) 
+3

加入'as.character'确实是我在找的东西。否则转换有时会出错。至少在我的情况下。 – 2014-11-27 16:36:38

+0

为什么需要as.character?我得到一个错误:'错误:(列表)对象不能被强制键入'双',虽然我有理由相信我的向量没有字符/标点符号。然后我试着'as.numeric(as.character(dat $ x))'并且它工作。现在我不确定我的专栏实际上是否只是整数! – vagabond 2015-02-26 22:58:30

+1

如果你对一个因子做数字化,它会将这些级别转换为数值而不是实际值。因此,as.character需要首先将该因子转换为字符,然后再转换为.numeric – MySchizoBuddy 2015-07-21 16:06:05

14

蒂姆是正确的,巴蒂尔有遗漏。下面是更多的例子:

R> df <- data.frame(a = as.character(10:15)) 
R> df <- data.frame(df, num = as.numeric(df$a), 
         numchr = as.numeric(as.character(df$a))) 
R> df 
    a num numchr 
1 10 1  10 
2 11 2  11 
3 12 3  12 
4 13 4  13 
5 14 5  14 
6 15 6  15 
R> summary(df) 
    a   num   numchr  
10:1 Min. :1.00 Min. :10.0 
11:1 1st Qu.:2.25 1st Qu.:11.2 
12:1 Median :3.50 Median :12.5 
13:1 Mean :3.50 Mean :12.5 
14:1 3rd Qu.:4.75 3rd Qu.:13.8 
15:1 Max. :6.00 Max. :15.0 
R> 

我们data.frame现在有系数列(计数)和as.numeric()的数字摘要---这是错误,因为它得到了数字因子水平的总结---和as.numeric(as.character())的(正确)摘要。

+0

+1感谢您指出这一点。我删除它。 – Shane 2010-02-18 14:47:22

+1

我的荣幸。这是该语言中较为愚蠢的角落之一,我认为它在此处的旧版“R Gotchas”问题中有所体现。 – 2010-02-18 14:52:27

109

对我有帮助的东西:如果您有多个要变换的变量范围(或多个变量),则可以使用sapply

有点荒谬,但只是举例:

data(cars) 
cars[, 1:2] <- sapply(cars[, 1:2], as.factor) 

说6-15列3,和你37数据帧需要被转换为数字可能之一:

dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric) 
+1

as.factor在上面的代码中使得列字符 – MySchizoBuddy 2015-05-23 00:02:31

+0

sapply比变换更好,当处理向量的索引而不是变量名时 – smci 2015-07-15 01:01:11

+0

@MySchizoBuddy是正确的,至少我的数据是。原来的df不会将“转换”列作为因素;他们将保持个性。如果您将'sapply'调用包装在右侧的'as.data.frame()'中,就像@ Mehrad Mahmoudian建议的那样,它将起作用。 – knowah 2016-06-20 09:30:44

12

用下面的代码可以将所有的数据帧列转换为数字(X是我们想把它转换成数据帧中的列):

as.data.frame(lapply(X, as.numeric)) 

,以及用于将整个矩阵为你的数字方法有两种:要么 :

mode(X) <- "numeric" 

或:

X <- apply(X, 2, as.numeric) 

或者您可以使用data.matrix功能一切转换成数字,但要注意的因素有可能不能正确转换,因此它是安全的一切转化为character第一:

X <- sapply(X, as.character) 
X <- data.matrix(X) 

我通常使用这最后一个如果我想转换为矩阵和数字同时

2

虽然其他人已经很好地涵盖了这个话题,我想添加这个额外的快速思想/提示。您可以使用regexp事先检查字符是否可能仅包含数字。

for(i in seq_along(names(df)){ 
    potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i])) 
} 
# and now just convert only the numeric ones 
d <- sapply(d[,potential_numcol],as.numeric) 

对于更复杂的正则表达式和一个整洁为什么要学习/体验他们的能力看到这个非常好的网站:http://regexr.com/

16

我会添加评论(广东话较低的等级)

只是为了加上user276042和pangratz

dat$x = as.numeric(as.character(dat$x)) 

这将覆盖现有的列X

012的值
3

要转换一个数据帧列数字,你只需要做: -

因素数值: -

data_frame$column <- as.numeric(as.character(data_frame$column)) 
+0

同样,这个答案不会为当前的答案组添加任何内容。另外,它不是将因子转换为数字的首选方式。请参阅http://stackoverflow.com/q/3418128以获取首选方式。 – BenBarnes 2015-04-18 08:09:21

+0

更好的答案是:'sapply(data_frame,function(x)as.numeric(as.character(x)))' – 2015-06-30 14:26:49

8

如果遇到有问题的:

as.numeric(as.character(dat$x)) 

乘坐看看你的小数点。如果他们是“,”而不是“”。 (例如“5,3”),上述不起作用。

一个潜在的解决方案是:

as.numeric(gsub(",", ".", dat$x)) 

我相信这是在一些非英语国家相当普遍。

5

使用type.convert()rapply()通用方式:

convert_types <- function(x) { 
    stopifnot(is.list(x)) 
    x[] <- rapply(x, utils::type.convert, classes = "character", 
        how = "replace", as.is = TRUE) 
    return(x) 
} 
d <- data.frame(char = letters[1:5], 
       fake_char = as.character(1:5), 
       fac = factor(1:5), 
       char_fac = factor(letters[1:5]), 
       num = 1:5, stringsAsFactors = FALSE) 
sapply(d, class) 
#>  char fake_char   fac char_fac   num 
#> "character" "character" "factor" "factor" "integer" 
sapply(convert_types(d), class) 
#>  char fake_char   fac char_fac   num 
#> "character" "integer" "factor" "factor" "integer" 
+1

这是最灵活的解决方案 - 值得一些upvotes! – 2016-07-05 03:09:17

+0

应该是最佳答案。如果要将字符转换为数字或因子,请删除'as.is = TRUE' – qfazille 2017-11-20 09:41:23

+0

尝试将具有类型为“矩阵”的data.frame中的一堆列更改为数值更改'classes = matrix'首先出错参数必须是模式字符 – 2018-02-07 17:33:41

0

在我的电脑(R v.3.2.3),applysapply给错误。 lapply效果很好。

dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x))) 
4

尽管您的问题严格依赖于数字,但在开始R时有很多转换难以理解。我将致力于解决方法以提供帮助。这个问题类似于This Question

类型转换可能是R中的一个痛苦,因为(1)因素不能直接转换为数字,它们需要首先转换为字符类,(2)日期是您通常需要处理的特例与分开,(3)跨数据帧列循环可能会非常棘手。幸运的是,“tidyverse”解决了大部分问题。

此解决方案使用mutate_each()将函数应用于数据框中的所有列。在这种情况下,我们想要应用type.convert()函数,它可以将字符串转换为数字。因为R喜欢因素(不知道为什么),应该保持字符的字符列变成因子。为了解决这个问题,mutate_if()函数用于检测因素并更改为字符的列。最后,我想展示如何使用lubridate将字符类中的时间戳更改为日期时间,因为这对于初学者来说通常也是一个障碍。


library(tidyverse) 
library(lubridate) 

# Recreate data that needs converted to numeric, date-time, etc 
data_df 
#> # A tibble: 5 × 9 
#>    TIMESTAMP SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR 
#>     <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> 
#> 1 2012-05-04 09:30:00 BAC  T 7.8900 38538  F 7.89 523 7.90 
#> 2 2012-05-04 09:30:01 BAC  Z 7.8850 288  @ 7.88 61033 7.90 
#> 3 2012-05-04 09:30:03 BAC  X 7.8900 1000  @ 7.88 1974 7.89 
#> 4 2012-05-04 09:30:07 BAC  T 7.8900 19052  F 7.88 1058 7.89 
#> 5 2012-05-04 09:30:08 BAC  Y 7.8900 85053  F 7.88 108101 7.90 

# Converting columns to numeric using "tidyverse" 
data_df %>% 
    mutate_each(funs(type.convert)) %>% 
    mutate_if(is.factor, as.character) %>% 
    mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone())) 
#> # A tibble: 5 × 9 
#>    TIMESTAMP SYMBOL EX PRICE SIZE COND BID BIDSIZ OFR 
#>    <dttm> <chr> <chr> <dbl> <int> <chr> <dbl> <int> <dbl> 
#> 1 2012-05-04 09:30:00 BAC  T 7.890 38538  F 7.89 523 7.90 
#> 2 2012-05-04 09:30:01 BAC  Z 7.885 288  @ 7.88 61033 7.90 
#> 3 2012-05-04 09:30:03 BAC  X 7.890 1000  @ 7.88 1974 7.89 
#> 4 2012-05-04 09:30:07 BAC  T 7.890 19052  F 7.88 1058 7.89 
#> 5 2012-05-04 09:30:08 BAC  Y 7.890 85053  F 7.88 108101 7.90 
0

考虑到可能存在的字符列,这是基于@Abdou在Get column types of excel sheet automatically答案:

makenumcols<-function(df){ 
df<-as.data.frame(df) 
cond <- apply(df, 2, function(x) { 
    x <- x[!is.na(x)] 
    all(suppressWarnings(!is.na(as.numeric(x)))) 
}) 
numeric_cols <- names(df)[cond] 
df[,numeric_cols] <- apply(df[,numeric_cols],2, as.character) # deals with factors 
df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric) 
return(df) 
} 
df<-makenumcols(df) 
0

要转换字符的数字你必须把它转换成因子应用

BankFinal1 <- transform(BankLoan, LoanApproval=as.factor(LoanApproval)) 
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval)) 

必须使两列具有相同的数据,因为一列不能转换为数字。如果你做一个转换它提供了以下错误

transform(BankData, LoanApp=as.numeric(LoanApproval)) 
Warning message: 
    In eval(substitute(list(...)), `_data`, parent.frame()) : 
    NAs introduced by coercion 

这样,做同样的两个数据列后申请

BankFinal1 < transform(BankFinal1, LoanApp  = as.numeric(LoanApp), 
            LoanApproval = as.numeric(LoanApproval)) 

它会转换角色,成功的数字

0

如果数据帧具有多种类型的列,则某些字符,某些数字会尝试将以下仅将包含数值的列转换为数字:

for (i in 1:length(data[1,])){ 
    if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){} 
    else { 
    data[,i]<-as.numeric(data[,i]) 
    } 
} 
相关问题