tm - VoidCC

tm

1热度

1回答

I'm在STM模式工作（topicmodelling）和我倒是喜欢评估和验证模型，但我不确定如何做到这一点。我的代码是： Corpus.STM <- readCorpus(dtm, type = "slam") 型号选择： BestM1. <- searchK(Corpus.STM$documents, Corpus.STM$vocab, K=c(10,20, 30, 40, 50, 60),

1热度

1回答

R：使用Quanteda软件包删除通用条款？

的removeCommonTerms功能发现here为TM封装，使得 removeCommonTerms <- function (x, pct) { stopifnot(inherits(x, c("DocumentTermMatrix", "TermDocumentMatrix")), is.numeric(pct), pct > 0, pct < 1) m

0热度

1回答

tm包：stemComplete不起作用

我有一个简单的代码来执行文本分析。在创建DTM之前，我正在应用stemCompletion。然而，这种输出是我不了解的，不管我做错了，还是这是它行为的唯一方式。我所提到的RMY帮助此链接：text-mining-with-the-tm-package-word-stemming ，我在这里看到的是，词干后，我的DTM缩小，并在所有（返回“内容”“元”）不返回令牌的问题我的代码和输出： text

-3热度

1回答

是否有标准功能在有序的单词列表上进行二分搜索

我正在使用tm软件包进行一些文本挖掘。我得到包含50,000多个单词的有序单词列表。我的语料库包含大约200万字，我把它们放在一个文档中。为了节省一些内存，并能够得到更多的方面，我想，以取代与数字的语料库中的词的n-gram（2-和3克）。有两种方法可以做到这一点。 1）在我的有序单词的列表，每个字我可以看一下在语料库的所有位置，代之以我想要的数字。这意味着我必须浏览我的文档5万次，每次检查

2热度

1回答

dtm稀疏度取决于tf/tfidf，同一语料库

任何人都可以解释吗？我的理解： tf >= 0 (absolute frequency value) tfidf >= 0 (for negative idf, tf=0) sparse entry = 0 nonsparse entry > 0 所以确切的稀疏/非稀疏的比例应与下面的代码创建的两个DTM的相同。 library(tm) data(crude) dtm

0热度

1回答

使用VCorpus（）函数但丢失内容

我使用r包tm中的VCorpus()函数。这里的问题是我有 example_text = data.frame(num=c(1,2,3),Author1 = c("Text mining is a great time.","Text analysis provides insights","qdap and tm are used in text mining"),Author2=c("R is

-2热度

1回答

如何获取R中的单词频率和相应的单词

我正在处理文本挖掘项目，并使用tm包在R中创建了一个稀疏矩阵。该数据是在下述格式： Sample Data format 我想在下面的格式： Resultant Data Format 需要将数据扯皮帮助。

0热度

2回答

将大字符转换为格法字符R的文字频率矩阵

我想计算大量我收集的推文的成对词频率。以便我可以在Gephi中使用它们进行可视化（网络图）。当前的数据看起来像这样（它是一个字符）。 head(Tweet_text) [1] "habits that separates successful persons from mediocre persons habit success startup entrepreneurship" [2

0热度

1回答

创建tm语料库，其中包含来自数据框的文本（tweet）属性

我有一个数据框，其中包含推文，创建日期，推文ID，最爱和推特计数。我想创建一个语料库，其中包含每个文档的最爱和推特计数作为变量。我也想通过tweet id识别文档，而不是随机文档001 etc id。我开始与下面的数据...查看下面的代码休息 id 1: 737243856144629760 2: 737242308261842945 3: 737242189055594496

2热度

1回答

删除DocumentTermMatrix中的单词

我和朋友正在努力将我们收集的一些tweets转换为dtm，以便能够在R中使用机器学习来运行情感分析。该任务必须在R中执行，因为它是在我们大学的考试中，R被要求用作工具。最初我们收集了一个较小的样本，以便测试我们的代码是否正常工作，然后才开始编码较大的数据集。我们的问题是，我们似乎无法弄清楚如何从dtm中删除自定义单词。我们到目前为止的代码看起来是这样的（我们主要使用TM封装）： file <-