0
我有一个表,如下所示:转换逗号分隔的列表,以虚拟变量
yel <- data.table(id=c(1,2,3))
yel$names[1] <- "\"parking space\", \"dining\", \"3bh\""
yel$names[2] <- "\"parking\" , \"outdoor\""
yel$names[3] <- "\"Hello!\",\"dining room\",\"3bh\""
yel
id names
1: 1 "parking space", "dining", "3bh"
2: 2 "parking" , "outdoor"
3: 3 "Hello!","dining room","3bh"
我是dummify的名变量,并加入像停车场的停车空间,也饭厅用餐同样的话。
我想要虚拟变量如下:parking,dining,3bh,outdoor,hello。有没有这样的方法?
最低明确定义的位似乎是*“加盟像停车车位同样的话,也饭厅用餐” * - 用'parkingspace'和'diningroom'的结果。你能更准确地表达规则吗?我们可以概括一下,如果有两个单词短语,任何与第一个单词匹配的条目也应该得到第二个单词,那么该空间应该被删除?有没有第二个词不同的情况?如果同时存在“停车位”和“停车场”,会发生什么? – Gregor
@格雷戈很抱歉不清楚。我想换句话说“像停车位”和“停车场”等类似的词汇加入“停车场”,这会有帮助吗? –
如果数据很简单,那么你可以在第一个字后面去掉所有的东西。类似于库(splitstackshape); dcast(cSplit(yel,“names”,“,”,“long”)[,names:= gsub('\\“|。*',”,names)],id 〜names,fun.aggregate = length)'? – A5C1D2H2I1M1N2O1R2T1