我正在尝试从字符串创建dfm的单词。当dfm无法选择时,我面临的问题是可以为诸如“/”“ - ”“之类的标点创建功能。”要么 '。用字母创建dfm的单词
require(quanteda)
dict = c('a','b','c','d','e','f','/',".",'-',"'")
dict <- quanteda::dictionary(sapply(dict, list))
x<-c("cab","baa", "a/de-d/f","ad")
x<-sapply(x, function(x) strsplit(x,"")[[1]])
x<-sapply(x, function(x) paste(x, collapse = " "))
mat <- dfm(x, dictionary = dict, valuetype = "regex")
mat <- as.matrix(mat)
mat
- 对于 “A /解d/F”,我想捕捉的字母 “/”, “ - ” 太
- 为什么 “”功能作为一个rowsum。我怎样才能保持它作为个人功能?
Like'tokens < - tokenize(x,what =“character”); mat < - dfm(tokens,dictionary = dict,valuetype =“fixed”)'?在正则表达式(“正则表达式”)中,“。”代表任何字符。 – lukeA
谢谢。这正是我所期待的。 – SuperSatya