tm

    0热度

    2回答

    这是一个相当具体的问题,但希望它是有关给别人太... 有谁知道,如果有找到的文件数量的简单方法该术语是否出现在包含{tm}包的语料库中? 基本上,如果我有一个我已经构建的术语文档矩阵,我想看看这个行对于一个特定术语的稀疏程度如何,即矩阵中有多少列有该行的非零值。 for循环显然可以工作,但我正在处理一个非常大的矩阵,因此在一个循环中重复进行子集化会让CPU感到厌烦。其实......(对上述问题的回

    -4热度

    1回答

    我正在查找代码以从数据框的字母数字矢量中删除字符。这是我的数据下面列: F9667968CU 67968PX11 3666SP 6SPF10 2323DL1 23DVL10 2016PP07 而且这是我使用的代码: for(i in 1: length(rownames(testsample))) { testsample$column1[i]<-gsub("[a-zA

    2热度

    1回答

    我是tm软件包的新手,希望能得到帮助。我有一堆帖子提取了不必要的符号和停用词,我已经使用tm软件包的各种功能(见下文)。最后,我留下了201个包含我需要的干净字符串的文档,但是,它不是R对象,而是一个VCorpus对象。我应该如何将这些处理过的文档全部拼接到一个文本文件中,以便它变成一个长字符串? 换句话说,如何将VCorpus对象转换为数据框或列表或其他R对象? corpus <-iconv(p

    0热度

    2回答

    我在R上的下面的代码,以获取有关当地的市长候选人,最近的鸣叫,并创建一个wordcloud: library(twitteR) library(ROAuth) require(RCurl) library(stringr) library(tm) library(ggmap) library(plyr) library(dplyr) library(SnowballC) libr

    2热度

    2回答

    当我在我的语料库上使用DocumentTermMatrix时,它会降低字数。我想保留骆驼案件。我该怎么做? as.matrix(DocumentTermMatrix(Corpus(VectorSource(c("Hello", "World"))))) 我想列名是Hello和World,而不是hello和world。

    0热度

    1回答

    假设我有一个关于TF-IDF权重的文档词表矩阵,用于表示某些文档的词袋。例如。在R: library(tm) x <- c("a cat sat on a mat", "cat and dog are friends", "friends are sitting on a mat") corpus <- Corpus(VectorSource(x)) dtm <- DocumentTermM

    0热度

    2回答

    开始与文件两个语料库,每个都有相同数量的文档元素方面,两个语料库: library(tm) c1 <- Corpus(VectorSource(c("document 1 corpus 1 text", "document 2 corpus 1 text"))) c2 <- Corpus(VectorSource(c("document 1 corpus 2 text", "document

    1热度

    1回答

    我已经浏览了Stack Overflow的所有问题,关于为什么removeWords不工作,对我而言,这不是已经发布的原因。 这是我有: setwd("not shown") filenames<-list.files(getwd(),pattern="*.txt") files<-lapply(filenames,readLines) docs<-Corpus(VectorSource(f

    1热度

    1回答

    我想对两个字符串出现在设定距离内的文档进行计数,在彼此的10个字内。我们说'德国*'和'战争'。 我不想统计它们总共出现的次数,但只计算出现集合的文档数量(如果出现一次,则将其计为一次)。 我知道如何计算包含单词的文档。但是我不确定是否需要提取10克并查看这两个单词是否出现,然后对每个文档计数,或者是否有更有效的方法。

    1热度

    1回答

    加载LDA功能我使用的文本挖掘tm库R.时 我R上运行的版本3.3.1 我有这样的代码: lda <- LDA(docterm,k = 3,method = 'Gibbs') lda.topics <- as.matrix(topics(lda)) lda.terms <- as.matrix(terms(lda,5)) topic.terms <- c() topic.terms[1