tm

    0热度

    1回答

    我翻遍了电路板,但在R studio中找不到我的问题的答案。 所以,也许任何人都有时间和善良,来帮助我。 我有一个文件夹包含106个txt文件,我希望提取数据。 因此,我想建立一个.csv两行。第一行应包含文件名,第二行应包含一个数字,whis是第一行的最后一个“单词”。 每个文档的第一行看起来像“y的文档x”。因此第二行应包含y。请注意,x可能包含一位,两位或三位数字。 如果这是不可能的,我会很

    1热度

    1回答

    我正在处理非结构化文本(Facebook)数据,并对其进行了预处理(例如,剥离标点符号,删除停用词,词干)。我需要在预处理过程中保留记录(即Facebook邮政)ID。我有一个解决方案适用于数据的一个子集,但所有数据都失败(N = 127K个帖子)。我试过分块数据,但这也不起作用。我认为这与我使用解决方法有关,并依赖于行名。例如,它似乎与第一个〜15K的帖子一起工作,但是当我继续进行子集化时,它失

    0热度

    1回答

    我试图在R中使用DocumentTermMatrix,使用参数control = list()将术语限制为预定义的基于文本的表情符号列表(:D,:),:(,等等。)。但是,dtm不会吸取某些表情符号(如":D"或":)"),但其他一些工作正常(":))")。我的代码: text = c(":D", ":))") corpus <- Corpus(VectorSource(text) corpu

    1热度

    2回答

    我有这样的代码正好与R wrapper for MALLET主题模型: docs <- mallet.import(DF$document, DF$text, stop_words) mallet_model <- MalletLDA(num.topics = 4) mallet_model$loadDocuments(docs) mallet_model$train(100) 我已经

    0热度

    2回答

    我试图创建一个双向克(大的n克)词云使用下面的代码 - text_input <- scan("Path/Wordcloud.txt") corpus <- Corpus(VectorSource(text_input)) corpus.ng = tm_map(corpus,removeWords,c(stopwords(),"s","ve")) corpus.ng = tm_map(cor

    1热度

    1回答

    我有一个tm文档语料库和一个单词列表。我想在语料库上运行一个for循环,以便循环顺序地从语料库中删除列表中的每个单词。 某些复制数据:现在 library(tm) m <- cbind(c("Apple blue two","Pear yellow five","Banana yellow two"), c(1, 2, 3)) tm_corpus <- Corpus(Vector

    0热度

    2回答

    我是R的初学者,正在尝试创建一个词云。我的代码和我无法修复的错误消息如下: 我导入了一个由tweets组成的csv文件,在包含tweets文本的csv文件的列中创建了一个列表,然后尝试了代码低于该给我上述错误信息: myCorpus <- Corpus(VectorSource(tweets)) myCorpus <- tm_map(myCorpus, tolower) myCorpus <-

    0热度

    1回答

    我刚刚熟悉R的tm包。如果文件夹中有单独的.txt文件,我知道如何将这些文件转换为R中的一种语料库文件 。但是在我的具体情况中,我在一个文件中包含所有文本数据。该文件中的每个句子代表一个文档,并具有前面的 短语ID和句子ID。 .tsv文件如下所示: PhraseId SentenceId 156061 8545间歇性令人愉悦但主要是常规性的努力。 156062 8545间歇性的令人愉悦的,但大多

    0热度

    1回答

    我刚开始交手与tm包河 可能是一个简单的问题,而是试图用findAssocs功能,以获取在联想词的想法我的客户查询见解文档和我似乎无法得到findAssocs正常工作。 当我使用以下命令: findAssocs(dtm, words, corlimit = 0.30) $population numeric(0) $migration numeric(0) 这是什么意思? W

    0热度

    1回答

    我想实现的目标: 我一直在寻找一种方法,但我无法找到一种(有效的)这个: 从例句中建立模型,同时考虑词序和同义词。 映射一个句子反对这一模式,并得到一个相似性得分(从而表明这句话多少适合的模型,换句话说分数符合其用于训练模型中的句子) 我试图:结合 Python:nltk与gensim(只要我能码,读它只能使用单词类似(但不考虑顺序为 帐号)。 R:使用tm建立一个TermDocumentMatr