tm

    2热度

    1回答

    我是R的新程序员。我有一些保存在文件夹中的文章(.txt)。 现在我可以在R中导入文章了。我有两种方法,我不知道哪一个更好。 这里是我的代码: # 1 library(tm) cname <- file.path("D:/magazine_pass") docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain))

    3热度

    1回答

    我使用R TM封装,我想通过自己的指数,它们的元数据来选择某些文件: orbit_corpus<-Corpus(tm_corpus, readerControl = list(reader=myReader)) meta(my_corpus[[1]]) author : a8 origin : Department heading : WhiB id : 1 year : 201

    3热度

    1回答

    我有一个包含200多个文档的大型文档语料库。正如你可以从这么大的语料库期望的那样,一些单词拼写错误,以不同格式使用,等等。我已经完成了标准文本处理,如转换为小写,删除标点符号,词干。我试图用一些词来替换正确的拼写并将其标准化,然后再进行分析。我已经做了更多的100次替换,使用与下面相同的语法,并且对于大部分替换,它按预期工作。但是,有些(约5%)没有工作。例如,下面的换人似乎只有有限的影响: do

    0热度

    1回答

    我正在尝试关注this example,但遇到了错误。 > library("RWeka") > library("tm") Loading required package: NLP > data("crude") > BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) > t

    0热度

    1回答

    我有690分的句子用500个字自己的术语列表, 所以我想使文件项矩阵,如: 我试过在tm包使用DocumentTermMatrix,但我无法找到制作矩阵自己的单词列表的方式。我该怎么办?或者你推荐什么软件包或功能?

    0热度

    2回答

    我是tm程序包的新手,尝试应用TermDocumentMatrix函数时遇到了障碍。 我用下面的代码,直到函数调用失败: myCorpus <- Corpus(VectorSource(posts$message)) myCorpus <- tm_map(myCorpus, content_transformer(tolower)) myCorpus <- tm_map(myCorpus, r

    0热度

    2回答

    我是R的新手,尝试使用由空格分隔的文本文件构建wordcloud。我已经安装了tm和tmap包。我得到以下错误: Error: could not find function "Corpus" Error: could not find function "tm_map" 任何人都可以帮我吗?

    0热度

    1回答

    我正在尝试使用tm包开发R上的基本文本分析。 输入文件:的几家酒店 我已经导入,并实现了由TM封装改造一些数据清理任务的csv文件cointaining评论。 然后,当我创建的文档词矩阵与下面的脚本: DocumentTermMatrix(tm_map(reviewc, PlainTextDocument)) 什么,我得到的是没有任何文字,但有没有任何意义的字符矩阵: inspect(try[1:

    1热度

    1回答

    在文本挖掘练习中,考虑使用R {tm}来考虑以下MWE: 丰田在美国有几款SUV车型。 models<-c("highlander","land cruiser","rav4","sequoia","4runner")。一般媒体称这些不是“丰田rav4”(语料库已经转变为小写),而是“rav4”。为了在DocumentTermMatrix中获得一列丰田suvs,我需要将所有这些品牌转换为一个通用的

    4热度

    1回答

    我非常需要。我已经有了一个我已经转换成通用语言的语料库,但是其中一些词语没有正确转换成英文。因此,我的语料库具有非ASCII字符,如“(U + 00F8)”。 我使用Quanteda,我已经使用这个代码导入我的文字: EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encod