tm

    0热度

    1回答

    我有使用tm包创建的文档的语料库,并且我使用相同的包制作了文档术语矩阵。我想用k-means聚类来聚集文档。我使用欧几里德距离,所以我首先对矢量进行归一化处理,以使欧几里得变得有意义。但是,规范化时,它会为一个特定文档创建'NaN'值,我不知道为什么。该代码使用: m = dtm norm_eucl = function(m) m/apply(m, MARGIN=1, FUN=function(

    0热度

    1回答

    通过findAssocs函数返回的搜索结果中删除非关联词。返回的结果显示一些与任何单词无关的单词。例如在下面的输出中,单词“新”与任何最小相关性为0.7的单词都没有关联。所以我想删除所有这些单词并创建一个具有一些关联的单词的向量。在这种情况下,矢量将是c("blush")。那么我怎么能做到这一点? 感谢 > findAssocs(myTdm,c("new","blush"),0.7) $new

    1热度

    1回答

    我试图从语料库中删除撇号,但只有当它们是段落中的第一个字符时。我看过有关在句子中找到第一个单词的帖子,但不是一个段落。 我试图这样做的原因是因为我在分析文本。我想去掉所有的标点符号,但是撇号和破折号只在文字中间有。要启动此,我所做的: library(tm) library(qdap) #docs is any corpus docs.test=tm_map(docs, PlainTextD

    0热度

    1回答

    我搜索问题并能够在第一组命令中替换。 但是,当我适用于我的语料库,它不起作用,仍然出现。 语料库有6570个元素,2.3mb,所以它似乎是有效的。 > x <- ". R Tutorial" > gsub("•","",x) [1] ". R Tutorial" > removeSpecialChars <- function(x) gsub("•","",x) > corpus2=tm

    0热度

    1回答

    我试图创建一个矩阵, 为此,我使用该R指令: matrix = create_matrix(tweets[,1], toLower = TRUE, language="english", removeStopwords=FALSE, removeNumbers=TRUE, stemWords=TRUE) 这里将R代码: library(RTextTool

    0热度

    1回答

    我是R以及tm包中的新成员。我的工作是使用决策树来执行文本文档分类。我正在关注某人的project.在第14页有完整的代码。有两种类型的文档,我使用DirSource加载时没有任何问题。我的下一步是将这两个corpuses合并为集合 # Merge corpora into one collection docs <- c(wheat.train , crude.train , wheat.te

    3热度

    1回答

    中未显示阿拉伯文字 刚开始与阿拉伯语中的R一起工作,因为我打算使用圣训语料库进行文本分析和文本挖掘。我一直在阅读与我的问题相关的主题,但仍然无法实现这里的真实基础(对不起,绝对初学者)。 所以,就进入: textarabic.v < - 扫描( “数据/阿拉伯-的text.txt”,编码= “UTF-8”,什么= “字符” 09月= “\ n” 个) 什么出来textarabic.v当然是符号(图

    0热度

    2回答

    我从pdf文件中提取文本并创建一个语料库对象。 在文本中,我有以“,”或“ - ”结尾的行,并且我想向它们追加下面的行,因为它属于同一个句子。 比如我有 [1566] "this and other southeastern states (Eukerria saltensis," [1567] "Sparganophilus helenae, Sp. tennesseensis). In t

    0热度

    1回答

    我打算从R.这个载体得到NGRAM无法安装RWeka/rJava不管我做什么,所以我找了这是NGRAM包替代。但是,这个脚本有问题,并且不起作用。 library(tm) library(ngram) text=c("A vector of n-grams","listed in decreasing blocks","it is a vector","it works a little di

    2热度

    1回答

    实际上,我正在尝试使用朴素贝叶斯算法基于twitter数据进行情感分析。 我看看2000年的推文。 获取数据为R的工作室后,我分开,预处理日期如下: train_size = floor(0.75 * nrow(Tweets_Model_Input)) set.seed(123) train_sub = sample(seq_len(nrow(Tweets_Model_Input)), siz