tm - VoidCC

tm

0热度

1回答

我有使用tm包创建的文档的语料库，并且我使用相同的包制作了文档术语矩阵。我想用k-means聚类来聚集文档。我使用欧几里德距离，所以我首先对矢量进行归一化处理，以使欧几里得变得有意义。但是，规范化时，它会为一个特定文档创建'NaN'值，我不知道为什么。该代码使用： m = dtm norm_eucl = function(m) m/apply(m, MARGIN=1, FUN=function(

0热度

1回答

如何从我使用的TM包在R上的findAssocs功能查找所有这与一组给定词相关联的词从TM封装

通过findAssocs函数返回的搜索结果中删除非关联词。返回的结果显示一些与任何单词无关的单词。例如在下面的输出中，单词“新”与任何最小相关性为0.7的单词都没有关联。所以我想删除所有这些单词并创建一个具有一些关联的单词的向量。在这种情况下，矢量将是c("blush")。那么我怎么能做到这一点？感谢 > findAssocs(myTdm,c("new","blush"),0.7) $new

1热度

1回答

提取段落R的第一个字

我试图从语料库中删除撇号，但只有当它们是段落中的第一个字符时。我看过有关在句子中找到第一个单词的帖子，但不是一个段落。我试图这样做的原因是因为我在分析文本。我想去掉所有的标点符号，但是撇号和破折号只在文字中间有。要启动此，我所做的： library(tm) library(qdap) #docs is any corpus docs.test=tm_map(docs, PlainTextD

0热度

1回答

我无法删除•和一些其他特殊字符，如' - 使用tm_map

我搜索问题并能够在第一组命令中替换。但是，当我适用于我的语料库，它不起作用，仍然出现。语料库有6570个元素，2.3mb，所以它似乎是有效的。 > x <- ". R Tutorial" > gsub("•","",x) [1] ". R Tutorial" > removeSpecialChars <- function(x) gsub("•","",x) > corpus2=tm

0热度

1回答

无法看到文档中的RTextTools :: toLower（）文本的结果

我试图创建一个矩阵，为此，我使用该R指令： matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, stemWords=TRUE) 这里将R代码： library(RTextTool

0热度

1回答

tm_map方法中的错误

我是R以及tm包中的新成员。我的工作是使用决策树来执行文本文档分类。我正在关注某人的project.在第14页有完整的代码。有两种类型的文档，我使用DirSource加载时没有任何问题。我的下一步是将这两个corpuses合并为集合 # Merge corpora into one collection docs <- c(wheat.train , crude.train , wheat.te

3热度

1回答

在R-

中未显示阿拉伯文字刚开始与阿拉伯语中的R一起工作，因为我打算使用圣训语料库进行文本分析和文本挖掘。我一直在阅读与我的问题相关的主题，但仍然无法实现这里的真实基础（对不起，绝对初学者）。所以，就进入： textarabic.v < - 扫描（ “数据/阿拉伯-的text.txt”，编码= “UTF-8”，什么= “字符” 09月= “\ n” 个）什么出来textarabic.v当然是符号（图

0热度

2回答

tm_map条件合并行

我从pdf文件中提取文本并创建一个语料库对象。在文本中，我有以“，”或“ - ”结尾的行，并且我想向它们追加下面的行，因为它属于同一个句子。比如我有 [1566] "this and other southeastern states (Eukerria saltensis," [1567] "Sparganophilus helenae, Sp. tennesseensis). In t

0热度

1回答

如何提取来自R NGRAM时无法安装RWeka

我打算从R.这个载体得到NGRAM无法安装RWeka/rJava不管我做什么，所以我找了这是NGRAM包替代。但是，这个脚本有问题，并且不起作用。 library(tm) library(ngram) text=c("A vector of n-grams","listed in decreasing blocks","it is a vector","it works a little di

2热度

1回答

DocumentTermMatrix使用字典时计数错误

实际上，我正在尝试使用朴素贝叶斯算法基于twitter数据进行情感分析。我看看2000年的推文。获取数据为R的工作室后，我分开，预处理日期如下： train_size = floor(0.75 * nrow(Tweets_Model_Input)) set.seed(123) train_sub = sample(seq_len(nrow(Tweets_Model_Input)), siz