tm - VoidCC

tm

2热度

1回答

我是R的新程序员。我有一些保存在文件夹中的文章（.txt）。现在我可以在R中导入文章了。我有两种方法，我不知道哪一个更好。这里是我的代码： # 1 library(tm) cname <- file.path("D:/magazine_pass") docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain))

3热度

1回答

如何根据元数据过滤R中tm语料库中的文档？

我使用R TM封装，我想通过自己的指数，它们的元数据来选择某些文件： orbit_corpus<-Corpus(tm_corpus, readerControl = list(reader=myReader)) meta(my_corpus[[1]]) author : a8 origin : Department heading : WhiB id : 1 year : 201

3热度

1回答

R tm使用gsub在语料库中替换单词

我有一个包含200多个文档的大型文档语料库。正如你可以从这么大的语料库期望的那样，一些单词拼写错误，以不同格式使用，等等。我已经完成了标准文本处理，如转换为小写，删除标点符号，词干。我试图用一些词来替换正确的拼写并将其标准化，然后再进行分析。我已经做了更多的100次替换，使用与下面相同的语法，并且对于大部分替换，它按预期工作。但是，有些（约5％）没有工作。例如，下面的换人似乎只有有限的影响： do

0热度

1回答

R中的n-克错误：无效的“时间”参数

我正在尝试关注this example，但遇到了错误。 > library("RWeka") > library("tm") Loading required package: NLP > data("crude") > BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) > t

0热度

1回答

如何用我自己的术语列表制作文档术语表？

我有690分的句子用500个字自己的术语列表，所以我想使文件项矩阵，如：我试过在tm包使用DocumentTermMatrix，但我无法找到制作矩阵自己的单词列表的方式。我该怎么办？或者你推荐什么软件包或功能？

0热度

2回答

在tm包中创建TermDocumentMatrix时出错

我是tm程序包的新手，尝试应用TermDocumentMatrix函数时遇到了障碍。我用下面的代码，直到函数调用失败： myCorpus <- Corpus(VectorSource(posts$message)) myCorpus <- tm_map(myCorpus, content_transformer(tolower)) myCorpus <- tm_map(myCorpus, r

0热度

2回答

在R（wordcloud）中使用语料库的错误

我是R的新手，尝试使用由空格分隔的文本文件构建wordcloud。我已经安装了tm和tmap包。我得到以下错误： Error: could not find function "Corpus" Error: could not find function "tm_map" 任何人都可以帮我吗？

0热度

1回答

文本挖掘 - 创建文档文本矩阵时的错误（“广泛”u009d）

我正在尝试使用tm包开发R上的基本文本分析。输入文件：的几家酒店我已经导入，并实现了由TM封装改造一些数据清理任务的csv文件cointaining评论。然后，当我创建的文档词矩阵与下面的脚本： DocumentTermMatrix(tm_map(reviewc, PlainTextDocument)) 什么，我得到的是没有任何文字，但有没有任何意义的字符矩阵： inspect(try[1:

1热度

1回答

R词典：创建多对一映射

在文本挖掘练习中，考虑使用R {tm}来考虑以下MWE：丰田在美国有几款SUV车型。 models<-c("highlander","land cruiser","rav4","sequoia","4runner")。一般媒体称这些不是“丰田rav4”（语料库已经转变为小写），而是“rav4”。为了在DocumentTermMatrix中获得一列丰田suvs，我需要将所有这些品牌转换为一个通用的

4热度

1回答

在R中使用Quanteda时，从文本语料库中删除非ASCII字符的最佳方法是什么？

我非常需要。我已经有了一个我已经转换成通用语言的语料库，但是其中一些词语没有正确转换成英文。因此，我的语料库具有非ASCII字符，如“（U + 00F8）”。我使用Quanteda，我已经使用这个代码导入我的文字： EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encod