tm - VoidCC

tm

0热度

2回答

当我使用TM时，我试图用inspect（）显示TermDocumentMatrix，结果并不是所有的矩阵，只是它的一部分。我真的很困惑。这是我的TDM的结果： > tdm <<TermDocumentMatrix (terms: 84, documents: 1)>> Non-/sparse entries: 84/0 Sparsity : 0% Maximal term leng

3热度

1回答

在R中使用DocumentTermMatrix和'dictionary'参数

我想使用R来进行文本分类。我用DocumentTermMatrix返回字的矩阵： library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

1热度

1回答

R：wordcloud软件包忽略语料库中三个字符以下的单词

使用wordcloud软件包创建wordcloud时，似乎软件包默认忽略三个字符以下的单词（如“tv”）。我认为这是一个功能，而不是一个bug，但我仍然无法找到调整最小字符数的参数。的wordcloud抵抗（）创建，并与该语料库（）和tm_map预处理词语从TM包功能的语料库运行。我已经证实，有问题的单词没有在例如删除停用词 - 它们仍处于运行wordcloud（）函数的最终语料库中。重复的例

0热度

1回答

如何在换行符后将语料库内容转换为向量\ n“

当我尝试在纯文本上使用strsplit时，它具有所需的属性，即存储的值将从字符串转换为具有字符串的向量。例如， txt = "The fox is Brown.\nThe Fox has a tail." strsplit(txt, "\n") 对于我使用的是NLP包的实际问题，TM（v0.7-1）中的R 3.4.0在Windows 7 当我创建我的文集并尝试使用content_transf

0热度

1回答

同义词

我想从一个CSV文件，其中的第一个字是“主”字和词语的相同的记录，其余读同义词是2的倍数列出的清单是其同义词现在我基本上要创建一个列表像我将不得不在R， **synonyms <- list( list(word="ss", syns=c("yy","yyss")), list(word="ser", syns=c("sert","sertyy","serty")) )**

0热度

1回答

R的tm包的问题

我一直在尝试跟随Udemy教程，使用R中的tm包在推文上进行文本挖掘。到目前为止，本教程中指定的许多函数（以及cran.org上的tm pdf）导致了一系列错误，我不清楚如何解决它们。我正在编码RStudio版本1.0.143和macOS Sierra。代码和错误下面是我试图从一系列的鸣叫做出wordcloud： nyttweets <- searchTwitter("#NYT", n=1000

1热度

1回答

在R中完成任务

我正在研究R中的文本挖掘，这里有几个来自我的语料库的文档，在删除了标点符号，数字，URL和停用词后。 myStopwords <- setdiff(myStopwords, c("r", "big")) myCorpus <- tm_map(myCorpus, removeWords, myStopwords) myCorpus <- tm_map(myCorpus, stripWhitesp

0热度

1回答

使用tf-idf时使用R和tm的新数据

使用R和tm，我加载并清理了一堆文本文档，并将它们制作成语料库。之后，我使用tf-idf构建了他们的DTM，并且可以用于各种分类聚类算法。到现在为止还挺好。现在，让我们假设我有一个新文档，并尝试计算它与Corpus中文档的距离。当然，我需要将它应用于原始集合的所有转换。但我不明白如何计算新文档的tf-idf矢量，因为tf-idf依赖于整个集合，而不是单个文档。将新文档添加到语料库并重新计算其tf

0热度

2回答

使用tm包删除R中的图释

我正在使用tm包清理Twitter语料库。但是，该软件包无法清理表情符号。这里有一个重复的代码： July4th_clean <- tm_map(July4th_clean, content_transformer(tolower)) Error in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is

0热度

1回答

为什么tm包和RTextTools包的输出不同？

我有一个260 RTI应用程序的数据集。我应该对他们执行LDA。我使用tm和RTextTools软件包创建了term-doc矩阵。但是，输出差别很大。 Tm软件包不显示任何稀疏的条目数量。总条款数量差别很大。下面是代码： library("tm") library("RTextTools") <I read the data here into a variable called 'data