tm

    1热度

    1回答

    I'm在STM模式工作(topicmodelling)和我倒是喜欢评估和验证模型,但我不确定如何做到这一点。我的代码是: Corpus.STM <- readCorpus(dtm, type = "slam") 型号选择: BestM1. <- searchK(Corpus.STM$documents, Corpus.STM$vocab, K=c(10,20, 30, 40, 50, 60),

    1热度

    1回答

    的removeCommonTerms功能发现here为TM封装,使得 removeCommonTerms <- function (x, pct) { stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")), is.numeric(pct), pct > 0, pct < 1) m

    0热度

    1回答

    我有一个简单的代码来执行文本分析。在创建DTM之前,我正在应用stemCompletion。然而,这种输出是我不了解的,不管我做错了,还是这是它行为的唯一方式。 我所提到的RMY帮助此链接:text-mining-with-the-tm-package-word-stemming ,我在这里看到的是,词干后,我的DTM缩小,并在所有(返回“内容”“元”)不返回令牌的问题 我的代码和输出: text

    -3热度

    1回答

    我正在使用tm软件包进行一些文本挖掘。 我得到包含50,000多个单词的有序单词列表。 我的语料库包含大约200万字,我把它们放在一个文档中。 为了节省一些内存,并能够得到更多的方面,我想,以取代与数字的语料库中的词的n-gram(2-和3克)。有两种方法可以做到这一点。 1)在我的有序单词的列表,每个字我可以看一下在语料库的所有位置,代之以我想要的数字。这意味着我必须浏览我的文档5万次,每次检查

    2热度

    1回答

    任何人都可以解释吗? 我的理解: tf >= 0 (absolute frequency value) tfidf >= 0 (for negative idf, tf=0) sparse entry = 0 nonsparse entry > 0 所以确切的稀疏/非稀疏的比例应与下面的代码创建的两个DTM的相同。 library(tm) data(crude) dtm

    0热度

    1回答

    我使用r包tm中的VCorpus()函数。这里的问题是我有 example_text = data.frame(num=c(1,2,3),Author1 = c("Text mining is a great time.","Text analysis provides insights","qdap and tm are used in text mining"),Author2=c("R is

    -2热度

    1回答

    我正在处理文本挖掘项目,并使用tm包在R中创建了一个稀疏矩阵。该数据是在下述格式: Sample Data format 我想在下面的格式: Resultant Data Format 需要将数据扯皮帮助。

    0热度

    2回答

    我想计算大量我收集的推文的成对词频率。以便我可以在Gephi中使用它们进行可视化(网络图)。当前的数据看起来像这样(它是一个字符)。 head(Tweet_text) [1] "habits that separates successful persons from mediocre persons habit success startup entrepreneurship" [2

    0热度

    1回答

    我有一个数据框,其中包含推文,创建日期,推文ID,最爱和推特计数。我想创建一个语料库,其中包含每个文档的最爱和推特计数作为变量。我也想通过tweet id识别文档,而不是随机文档001 etc id。 我开始与下面的数据...查看下面的代码休息 id 1: 737243856144629760 2: 737242308261842945 3: 737242189055594496

    2热度

    1回答

    我和朋友正在努力将我们收集的一些tweets转换为dtm,以便能够在R中使用机器学习来运行情感分析。该任务必须在R中执行,因为它是在我们大学的考试中,R被要求用作工具。 最初我们收集了一个较小的样本,以便测试我们的代码是否正常工作,然后才开始编码较大的数据集。我们的问题是,我们似乎无法弄清楚如何从dtm中删除自定义单词。我们到目前为止的代码看起来是这样的(我们主要使用TM封装): file <-