0
我有一个数据帧DF这种结构:文件,术语矩阵与Quanteda
Rank Review
5 good film
8 very goood film
..
然后我试图使用quanteda包来创建一个DocumentTermMatris:
temp.tf <- df$Review %>% tokens(ngrams = 1:1) %>% # generate tokens
+ dfm %>% # generate dfm
+ convert(to = "tm")
我得到这个矩阵:
> inspect(temp.tf)
<<DocumentTermMatrix (documents: 63023, terms: 23892)>>
Non-/sparse entries: 520634/1505224882
Sparsity : 100%
Maximal term length: 77
Weighting : term frequency (tf)
Sample :
蒙山这种结构:
Terms
Docs good very film my excellent heart David plus always so
text14670 1 0 0 0 1 0 0 0 2 0
text19951 3 0 0 0 0 0 0 1 1 1
text24305 7 0 2 1 0 0 0 2 0 0
text26985 6 0 0 0 0 0 0 4 0 1
text29518 4 0 1 0 1 0 0 3 0 1
text34547 5 2 0 0 0 0 2 3 1 3
text3781 3 0 1 4 0 0 0 3 0 0
text5272 4 0 0 4 0 5 0 3 1 2
text5367 3 0 1 3 0 0 1 4 0 1
text6001 3 0 9 1 0 6 0 1 0 1
所以我认为这是好的,但我认为:text6001,text5367,text5272 ...引用文档的名称... 我的问题是这个矩阵中的行是有序的吗?或矩阵放在矩阵中?
谢谢
编辑:
我创建的文档词频:
mydfm <- dfm(df$Review, remove = stopwords("french"), stem = TRUE)
然后,我创建了一个TF-IDF矩阵:
tfidf <- tfidf(mydfm)[, 5:10]
然后我想将tfidf矩阵合并到Rank中列有这样的事情
features
Docs good very film my excellent heart David plus always so Rank
text14670 1 0 0 0 1 0 0 0 2 0 3
text19951 3 0 0 0 0 0 0 1 1 1 2
text24305 7 0 2 1 0 0 0 2 0 0 4
text26985 6 0 0 0 0 0 0 4 0 1 5
你能帮助使这个合并?
谢谢
谢谢,最后一个问题..是否有可能用Quanteda创建tf-idf矩阵?当然最好 –
。见'?tfidf'。或'?dfm_weight'。 –
好,非常感谢 –