2017-05-09 88 views
0

我从公开的审阅数据创建相关的主题模型并获取相当奇怪的错误。R中的主题建模

当我在我的CTM上调用术语(ctm1,5)时,我找回了文档的名称,而不是每个主题的前5个术语。

更详细我跑,

library(topicmodels) 
library(data.table) 
library(tm) 

a <-Corpus(DirSource("~/text", encoding="UTF-8"), readerControl = 
list(language="lat")) 
a <- tm_map(a, removeNumbers) 
a <- tm_map(a, removePunctuation) 
a <- tm_map(a , stripWhitespace) 
a <- tm_map(a, tolower) 
a <- tm_map(a, removeWords, stopwords("english")) 
a <- tm_map(a, stemDocument, language = "english") 
adtm <-TermDocumentMatrix(a) 
adtm <- removeSparseTerms(adtm, 0.75) 

ctm1 <- CTM(adtm, 30, method = "VEM", control = NULL, model = NULL) 
terms(ctm1, 5) 

其返回

terms(ctm1) 
      Topic 1 "cmnt656661.txt" 

(等)

回答

0

我们不能确切知道,因为你没有提供的数据;但很可能您没有正确导入文件。见?DirSource(我的重点):

目录:中全路径名一个特征向量;默认 对应于工作目录getwd()。

对你来说,好像你应该做这样的事情:

a <- Corpus(DirSource(list.files("~/text", full.names = TRUE)))