2016-09-18 60 views
1

我有基于事件的数据集创建的列和每个事件JSON格式有属性,因此,例如,该数据的简化版本:与多值处理属性中的R - 为每个属性

id event  attribute 
1 23  {'grades':43, 'school':'primary'} 
2 49  {} 
3 99  {'x':49, 'y':52, 'country':'Japan'} 
4 89  {'grades':56} 

属性是多值的,并且每行具有不同数量的属性。我猜测R可能不是处理这类数据的最佳方式,通常我会在SQL中单独有一个“属性”表,并加入事件ID以获取属性及其值。我想知道在R中是否有处理这个问题的既定方法。我希望的方式来表示这个数据,这样我可以把它总结一下,并用同一种属性的群体性事件,比较它们的值

更新的建议下,我想知道是否有一个直线前进得到的结果

d = data.frame(id = 1:4, 
       event =c(23, 49, 99, 89), 
       grades = c(43, NA, NA, 56), 
       school=c("primary", NA, NA, NA)) 

,而无需手动输入的方式,

第二/第三次更新

我已经WRI tten这一点,这似乎是工作,所以我想我会分享,如果有一个更简单的方法来做到这一点,请让我知道:

library(jsonlite) 

#data input 
    id <- 1:4 
    event <- c(23,49,99,89) 
    attribute <- c("{'grades':43, 'school':'primary'}", "{}", "{'x':49, 'y':52, 'country':'Japan'}", "{'grades':56}") 

#format for fromJSON 
    attribute <- gsub("'", '"', attribute) 
    att <- lapply(attribute, fromJSON) 

#distinct attributes 
    att_names <- unique(unlist(lapply(att, names))) 

#store output in list list_atts 
    list_atts <- list() 

    for(i in 1:length(att_names)){ 
      j <- lapply(att, "[", paste(att_names[i])) 
      j <- lapply(j, function(x) ifelse(is.null(unlist(x)) == TRUE, NA, unlist(x))) # convert NULL to NA 
      list_atts[[i]] <- unlist(j) 
      names(list_atts)[i] <- paste(att_names[i]) 
    } 

这里的输出:

> data.frame(list_atts, stringsAsFactors = FALSE) 
    grades school x y country 
1  43 primary NA NA <NA> 
2  NA <NA> NA NA <NA> 
3  NA <NA> 49 52 Japan 
4  56 <NA> NA NA <NA> 

回答

2

你可以尝试:

library(dplyr) 
library(tidyr) 
df %>% 
    mutate(to = strsplit(attribute, ",")) %>% 
    unnest(to) %>% 
    separate(to, into = c("l", "v"), sep = ":") %>% 
    mutate_at(vars(l, v), funs(gsub("[^[:alnum:]]", "", .))) %>% 
    spread(l, v, sep = "_") %>% 
    select(-attribute, -l_) 

其中给出:

# id event l_country l_grades l_school l_x l_y 
#1 1 23  <NA>  43 primary <NA> <NA> 
#2 2 49  <NA>  <NA>  <NA> <NA> <NA> 
#3 3 99  Japan  <NA>  <NA> 49 52 
#4 4 89  <NA>  56  <NA> <NA> <NA> 
2

在R数据框中,每一行应该对应一个人/每个东西每列应该是一个变量。因此,在上面的数据集中,您需要类似

dd = data.frame(id = 1:4, 
       event =c(23, 49, 99, 89), 
       grades = c(43, NA, NA, 56), 
       school=c("primary", NA, NA, NA)) 

其中NA是缺失值。


小更新如下评论:

  1. 如果各行 “相似”,那么,这是建议的方法。这意味着所有的标准算法和绘图都能正常工作。如果你有大量的属性,那么它取决于什么是大。具体来说,它会导致你的记忆/速度问题?如果没有,不要担心。如果是这样,你是否真的需要所有的属性?

  2. 对于处理JSON数据,看包,比如jsonlite

+0

是啊,(一)我有一个大(b)是否有一种方法可以提取JSON字符串,然后输入它作为它的值在数据框中自己的列? – dimebucker91

+0

@ dimebucker91查看更新。 – csgillespie

+0

@ dimebucker91看起来我们大约在同一时间开始编辑! – csgillespie