tm - VoidCC

tm

0热度

1回答

我翻遍了电路板，但在R studio中找不到我的问题的答案。所以，也许任何人都有时间和善良，来帮助我。我有一个文件夹包含106个txt文件，我希望提取数据。因此，我想建立一个.csv两行。第一行应包含文件名，第二行应包含一个数字，whis是第一行的最后一个“单词”。每个文档的第一行看起来像“y的文档x”。因此第二行应包含y。请注意，x可能包含一位，两位或三位数字。如果这是不可能的，我会很

1热度

1回答

使用tm函数时保留唯一标识符（例如，记录标识符） - 不适用于批量数据？

我正在处理非结构化文本（Facebook）数据，并对其进行了预处理（例如，剥离标点符号，删除停用词，词干）。我需要在预处理过程中保留记录（即Facebook邮政）ID。我有一个解决方案适用于数据的一个子集，但所有数据都失败（N = 127K个帖子）。我试过分块数据，但这也不起作用。我认为这与我使用解决方法有关，并依赖于行名。例如，它似乎与第一个〜15K的帖子一起工作，但是当我继续进行子集化时，它失

0热度

1回答

在R中保留标点符号文档术语表

我试图在R中使用DocumentTermMatrix，使用参数control = list()将术语限制为预定义的基于文本的表情符号列表（：D，:)，:(，等等。）。但是，dtm不会吸取某些表情符号（如":D"或":)"），但其他一些工作正常（":))"）。我的代码： text = c(":D", ":))") corpus <- Corpus(VectorSource(text) corpu

1热度

2回答

与R-TM阅读文件与使用R-槌

我有这样的代码正好与R wrapper for MALLET主题模型： docs <- mallet.import(DF$document, DF$text, stop_words) mallet_model <- MalletLDA(num.topics = 4) mallet_model$loadDocuments(docs) mallet_model$train(100) 我已经

0热度

2回答

无法得到n个克词云中的R

我试图创建一个双向克（大的n克）词云使用下面的代码 - text_input <- scan("Path/Wordcloud.txt") corpus <- Corpus(VectorSource(text_input)) corpus.ng = tm_map(corpus,removeWords,c(stopwords(),"s","ve")) corpus.ng = tm_map(cor

1热度

1回答

在没有丢失语料库结构的情况下循环通过tm语料库

我有一个tm文档语料库和一个单词列表。我想在语料库上运行一个for循环，以便循环顺序地从语料库中删除列表中的每个单词。某些复制数据：现在 library(tm) m <- cbind(c("Apple blue two","Pear yellow five","Banana yellow two"), c(1, 2, 3)) tm_corpus <- Corpus(Vector

0热度

2回答

如何将R中的worldcloud设置为仅跟踪长度大于3个字的单词以防止出现错误消息

我是R的初学者，正在尝试创建一个词云。我的代码和我无法修复的错误消息如下：我导入了一个由tweets组成的csv文件，在包含tweets文本的csv文件的列中创建了一个列表，然后尝试了代码低于该给我上述错误信息： myCorpus <- Corpus(VectorSource(tweets)) myCorpus <- tm_map(myCorpus, tolower) myCorpus <-

0热度

1回答

如何将包含文本数据的文件转换为R tm的语料库格式

我刚刚熟悉R的tm包。如果文件夹中有单独的.txt文件，我知道如何将这些文件转换为R中的一种语料库文件。但是在我的具体情况中，我在一个文件中包含所有文本数据。该文件中的每个句子代表一个文档，并具有前面的短语ID和句子ID。 .tsv文件如下所示： PhraseId SentenceId 156061 8545间歇性令人愉悦但主要是常规性的努力。 156062 8545间歇性的令人愉悦的，但大多

0热度

1回答

词语联想 - findAssocs和数字（0）

我刚开始交手与tm包河可能是一个简单的问题，而是试图用findAssocs功能，以获取在联想词的想法我的客户查询见解文档和我似乎无法得到findAssocs正常工作。当我使用以下命令： findAssocs(dtm, words, corlimit = 0.30) $population numeric(0) $migration numeric(0) 这是什么意思？ W

0热度

1回答

R/python：通过训练语句构建模型

我想实现的目标：我一直在寻找一种方法，但我无法找到一种（有效的）这个：从例句中建立模型，同时考虑词序和同义词。映射一个句子反对这一模式，并得到一个相似性得分（从而表明这句话多少适合的模型，换句话说分数符合其用于训练模型中的句子）我试图：结合 Python:nltk与gensim（只要我能码，读它只能使用单词类似（但不考虑顺序为帐号）。 R:使用tm建立一个TermDocumentMatr