tm - VoidCC

tm

0热度

1回答

# My TermDocumentMatrix (TDM) Nepal.tdm # Structure of my TDM str(Nepal.tdm) # My locality vector localities # Structure of my locality vector str(localities) #chr [1:344] "kalyan" "surkhet

1热度

1回答

问题在DocumentTermMatrix与德语

语料库我创建的语料库中的R用包TM指定语言和编码如下： de_DE.corpus <- Corpus(VectorSource(de_DE.sample), readerControl = list(language="de_DE",encoding = "UTF_8")) de_DE.corpus[36]$content de_DE.dtm <- DocumentTermMatri

0热度

1回答

R中包tm的函数DocumentTermMarix的默认控制设置是什么？

当我调查所得到的DTM矩阵，我发现的记号是小写，除非设置被设置为False。此外，带有下划线的单词在标记之前被拆分。当我抬头看documentation我无法检索默认设置，或者如果没有提供明确的控制使用哪些设置。在哪里可以找到呢？

0热度

1回答

通过在Shiny应用程序文本框中键入的文本显示匹配的句子

我正在尝试构建一个Shiny应用程序，该应用程序可以通过从文本框（即文本框）匹配语料库来动态显示数据库列中的句子。当用户开始在文本框中输入文本时，所有匹配的句子（文本类型中的语料）需要按照与语料库匹配的词数顺序显示我尝试了kwic函数，但这并不帮助匹配语料库动态，做法，我试过了， require(quanteda) require(tm) data(crude, package = "tm"

1热度

1回答

tm包中的自定义标记器R不能正常工作

请参阅下面的MWE，自定义标记器不工作，为什么？ TM软件包版本为0.71 library(tm) ts <- c("This is a testimonial") corpDs <- Corpus(VectorSource(ts)) #This is not working ownTokenizer <- function(x) unlist(strsplit(as.characte

0热度

1回答

为什么我不能使用“TermDocumentMatrix”？

为什么我不能使用“TermDocumentMatrix”？我用下面的命令以单数形式统一复数单词，但是我得到一个错误。 crudeCorp <- tm_map(crudeCorp, gsub, pattern = "smells", replacement = "smell") crudeCorp <- tm_map(crudeCorp, gsub, pattern = "feels", rep

0热度

1回答

当使用“TermDocumentMatrix”时，没有适用于'meta'的方法应用于类“character”的对象

直到我使用这个短语时，“TermDocumentMatrix”是好的。 doc <- tm_map(doc, gsub, pattern = "buy", replacement = "bought") 但是，在使用这个短语之后，“TermDocumentMatrix”会产生一个错误。 Error in UseMethod("meta", x) : no applicable method

1热度

1回答

如何在R tm_map gsub中从列表中进行大规模替换/标记？

有没有人设法创建一个大型的查找/替换函数/工作代码片段，在数据框中交换出已知的bigrams？下面是一个例子。我能够不用onesie-twosie替换，但我真的想利用我想找到的大约800个术语的已知词典 - 替换，以便在DTM生成之前将它们转换为单词单元。例如，我想将“Google Analytics”转换为“google-analytics”。我知道这在理论上是可行的;从本质上讲，自定义停用

1热度

1回答

词形还原使用txt文件与R中

lemmes我想用外部的txt文件，结构为波兰引理如下：（来源引理对许多其他语言http://www.lexiconista.com/datasets/lemmatization/） Abadan Abadanem Abadan Abadanie Abadan Abadanowi Abadan Abadanu abadańczyk abadańczycy abadańczyk abad

1热度

1回答

无法获取tm_map使用mc.cores参数

我有一个超过10M文档的大型语料库。每当我尝试在多个内核的改造利用mc.cores的说法，我得到错误： Error in FUN(content(x), ...) : unused argument (mc.cores = 10) 我在我目前的托管[R工作室15个可用内核。 # I have a corpus > inspect(corpus[1]) <<VCorpus>> Metada