tm - VoidCC

tm

0热度

2回答

这是一个相当具体的问题，但希望它是有关给别人太... 有谁知道，如果有找到的文件数量的简单方法该术语是否出现在包含{tm}包的语料库中？基本上，如果我有一个我已经构建的术语文档矩阵，我想看看这个行对于一个特定术语的稀疏程度如何，即矩阵中有多少列有该行的非零值。 for循环显然可以工作，但我正在处理一个非常大的矩阵，因此在一个循环中重复进行子集化会让CPU感到厌烦。其实......（对上述问题的回

-4热度

1回答

从R中的字母数字列中删除字符？

我正在查找代码以从数据框的字母数字矢量中删除字符。这是我的数据下面列： F9667968CU 67968PX11 3666SP 6SPF10 2323DL1 23DVL10 2016PP07 而且这是我使用的代码： for(i in 1: length(rownames(testsample))) { testsample$column1[i]<-gsub("[a-zA

2热度

1回答

文本回t对象中的R对象

我是tm软件包的新手，希望能得到帮助。我有一堆帖子提取了不必要的符号和停用词，我已经使用tm软件包的各种功能（见下文）。最后，我留下了201个包含我需要的干净字符串的文档，但是，它不是R对象，而是一个VCorpus对象。我应该如何将这些处理过的文档全部拼接到一个文本文件中，以便它变成一个长字符串？换句话说，如何将VCorpus对象转换为数据框或列表或其他R对象？ corpus <-iconv(p

0热度

2回答

错误的（在simple_triplet_matrix错误：“I，J，V”不同的长度）中的R创建词云

我在R上的下面的代码，以获取有关当地的市长候选人，最近的鸣叫，并创建一个wordcloud： library(twitteR) library(ROAuth) require(RCurl) library(stringr) library(tm) library(ggmap) library(plyr) library(dplyr) library(SnowballC) libr

2热度

2回答

使用DocumentTermMatrix时，R tm防止小写转换

当我在我的语料库上使用DocumentTermMatrix时，它会降低字数。我想保留骆驼案件。我该怎么做？ as.matrix(DocumentTermMatrix(Corpus(VectorSource(c("Hello", "World"))))) 我想列名是Hello和World，而不是hello和world。

0热度

1回答

如何用TF-IDF文档 - 术语矩阵表示新文档，以及如何用大矩阵实现生产？

假设我有一个关于TF-IDF权重的文档词表矩阵，用于表示某些文档的词袋。例如。在R： library(tm) x <- c("a cat sat on a mat", "cat and dog are friends", "friends are sitting on a mat") corpus <- Corpus(VectorSource(x)) dtm <- DocumentTermM

0热度

2回答

如何连接，R中使用TM

开始与文件两个语料库，每个都有相同数量的文档元素方面，两个语料库： library(tm) c1 <- Corpus(VectorSource(c("document 1 corpus 1 text", "document 2 corpus 1 text"))) c2 <- Corpus(VectorSource(c("document 1 corpus 2 text", "document

1热度

1回答

“input string 1 is invalid UTF-8”in removeWords function

我已经浏览了Stack Overflow的所有问题，关于为什么removeWords不工作，对我而言，这不是已经发布的原因。这是我有： setwd("not shown") filenames<-list.files(getwd(),pattern="*.txt") files<-lapply(filenames,readLines) docs<-Corpus(VectorSource(f

1热度

1回答

如何统计两个词在R中靠近的文档？

我想对两个字符串出现在设定距离内的文档进行计数，在彼此的10个字内。我们说'德国*'和'战争'。我不想统计它们总共出现的次数，但只计算出现集合的文档数量（如果出现一次，则将其计为一次）。我知道如何计算包含单词的文档。但是我不确定是否需要提取10克并查看这两个单词是否出现，然后对每个文档计数，或者是否有更有效的方法。

1热度

1回答

问题中的R

加载LDA功能我使用的文本挖掘tm库R.时我R上运行的版本3.3.1 我有这样的代码： lda <- LDA(docterm,k = 3,method = 'Gibbs') lda.topics <- as.matrix(topics(lda)) lda.terms <- as.matrix(terms(lda,5)) topic.terms <- c() topic.terms[1