tm

    0热度

    2回答

    当我使用TM时,我试图用inspect()显示TermDocumentMatrix,结果并不是所有的矩阵,只是它的一部分。 我真的很困惑。 这是我的TDM的结果: > tdm <<TermDocumentMatrix (terms: 84, documents: 1)>> Non-/sparse entries: 84/0 Sparsity : 0% Maximal term leng

    3热度

    1回答

    我想使用R来进行文本分类。我用DocumentTermMatrix返回字的矩阵: library(tm) crude <- "japan korea usa uk albania azerbaijan" corps <- Corpus(VectorSource(crude)) dtm <- DocumentTermMatrix(corps) inspect(dtm) words <-

    1热度

    1回答

    使用wordcloud软件包创建wordcloud时,似乎软件包默认忽略三个字符以下的单词(如“tv”)。我认为这是一个功能,而不是一个bug,但我仍然无法找到调整最小字符数的参数。 的wordcloud抵抗()创建,并与该语料库()和tm_map预处理词语从TM包功能的语料库运行。我已经证实,有问题的单词没有在例如删除停用词 - 它们仍处于运行wordcloud()函数的最终语料库中。 重复的例

    0热度

    1回答

    当我尝试在纯文本上使用strsplit时,它具有所需的属性,即存储的值将从字符串转换为具有字符串的向量。例如, txt = "The fox is Brown.\nThe Fox has a tail." strsplit(txt, "\n") 对于我使用的是NLP包的实际问题,TM(v0.7-1)中的R 3.4.0在Windows 7 当我创建我的文集并尝试使用content_transf

    0热度

    1回答

    我想从一个CSV文件,其中的第一个字是“主”字和词语的相同的记录,其余读同义词是2的倍数列出的清单是其同义词 现在我基本上要创建一个列表像我将不得不在R, **synonyms <- list( list(word="ss", syns=c("yy","yyss")), list(word="ser", syns=c("sert","sertyy","serty")) )**

    0热度

    1回答

    我一直在尝试跟随Udemy教程,使用R中的tm包在推文上进行文本挖掘。 到目前为止,本教程中指定的许多函数(以及cran.org上的tm pdf)导致了一系列错误,我不清楚如何解决它们。我正在编码RStudio版本1.0.143和macOS Sierra。代码和错误下面是我试图从一系列的鸣叫做出wordcloud: nyttweets <- searchTwitter("#NYT", n=1000

    1热度

    1回答

    我正在研究R中的文本挖掘,这里有几个来自我的语料库的文档,在删除了标点符号,数字,URL和停用词后。 myStopwords <- setdiff(myStopwords, c("r", "big")) myCorpus <- tm_map(myCorpus, removeWords, myStopwords) myCorpus <- tm_map(myCorpus, stripWhitesp

    0热度

    1回答

    使用R和tm,我加载并清理了一堆文本文档,并将它们制作成语料库。之后,我使用tf-idf构建了他们的DTM,并且可以用于各种分类聚类算法。到现在为止还挺好。 现在,让我们假设我有一个新文档,并尝试计算它与Corpus中文档的距离。当然,我需要将它应用于原始集合的所有转换。但我不明白如何计算新文档的tf-idf矢量,因为tf-idf依赖于整个集合,而不是单个文档。将新文档添加到语料库并重新计算其tf

    0热度

    2回答

    我正在使用tm包清理Twitter语料库。但是,该软件包无法清理表情符号。 这里有一个重复的代码: July4th_clean <- tm_map(July4th_clean, content_transformer(tolower)) Error in FUN(content(x), ...) : invalid input 'RT ElleJohnson Love of country is

    0热度

    1回答

    我有一个260 RTI应用程序的数据集。我应该对他们执行LDA。我使用tm和RTextTools软件包创建了term-doc矩阵。但是,输出差别很大。 Tm软件包不显示任何稀疏的条目数量。总条款数量差别很大。 下面是代码: library("tm") library("RTextTools") <I read the data here into a variable called 'data