tm - VoidCC

tm

0热度

1回答

与安装 “TM” 包 “SLAM” 包： install.packages("tm", dependencies = TRUE) 具有以下输出失败： During startup - Warning messages: 1: Setting LC_TIME failed, using "C" 2: Setting LC_MESSAGES failed, using "C" 3: Sett

0热度

1回答

从tm对象移动到koRpus对象，反之亦然

从tm对象移动到koRpus对象时出现问题。我必须用tm工具规范一个语料库，用koRpus推理结果并返回到tm来对结果进行分类。为了做到这一点，我必须将tm对象转换为R数据框，然后将其转换为excel文件，然后转换为txt文件，最后转换为koRpus对象。这是代码： #from VCORPUS to DATAFRAME dataframeD610P<-data.frame(text=unl

-1热度

1回答

R：topicmodels，2个相似的文档，代码与其中一个工作，不与另一个

当我运行我的topicmodel代码时，发生了一个非常奇怪的错误。基本上我有一个包含用户注释的.csv文件。我想创建一个dtm，每个注释都是一个文档。我采取了8K评论的样本，并使用以下代码： > #LOAD LIBRARYS > > library(tm) > library(SnowballC) > library(stringr) > library(tictoc) > tic(

0热度

1回答

tm语料库：tm_map函数不会更改语料库

我是新来的在R的tm包我试图创建tm_map函数的文档项矩阵，但显然传递给tm_map(Corpus, function, lazy=TRUE)函数不适用于语料库。具体而言，文件不会转换为小写。 R Studio不显示任何错误或警告。我在这里搞乱了什么吗？这可能是一些相关的问题吗？ library(tm) setwd("...") filenames <- list.files(getwd

1热度

1回答

安装R中的旧包时出错

我正在尝试安装tm库的0.6-2版本。我从archive下载了tar.gz文件，并在RStudio中选择了Tools - > Archive - > Package Archive File来安装它。但是，我收到以下错误。有人可以帮助我解决这个问题，请： installing source package 'tm' ... ** package 'tm' successfully unpacke

1热度

2回答

如何根据每个术语出现的频率过滤术语文档矩阵

我有一个术语文档矩阵。我希望对它进行子集化并只保留出现超过特定次数的那些项，即行总和应该大于特定的数字。任何快速的方法来实现这一点？ B.T.W，矩阵很大。

0热度

1回答

在R中使用tm和rpart：文本数据的决策树？

我使用R中的tm包创建文本文档的语料库，我想创建一个用于分类的rpart决策树。然而，我在互联网上找不到任何关于rpart使用文本数据的例子。它甚至有可能或者我可以使用其他软件包吗？

2热度

1回答

在R中安装旧的tm软件包时出错

我正在尝试安装tm库的0.6-2版本。我从archive下载了tar.gz文件，并在RStudio中选择了Tools - > Archive - > Package Archive File来安装它。我还安装了最新版本的Java和Rtools。但是，我收到以下错误。有人可以帮我修复这个请： ** libs *** arch - i386 Warning: running command 'mak

-1热度

1回答

R：用于文本分类的谱聚类

我正在使用tm包创建文档的语料库，我想使用谱聚类（kernlab包）进行文本分类。所以，如果我有一个语料库 my_corpus = VCorpus(DirSource(directory="C:/Users/me/Desktop/Documents", pattern="txt") 而且我想用specc功能，采用下列参数 specc(x, centers, kernel) 我该怎么把为执行谱聚类

1热度

1回答

R-bigram tokenizer中的文档项矩阵不起作用

我正在试图为一个语料库，一个使用unigrams，一个使用bigrams制作两个文档项矩阵。然而，二元矩阵当前与单元矩阵相同，我不知道为什么。从的ngram包作为标记生成器，但是这并不工作 docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices BigramTokenizer <- fu