tm

    0热度

    1回答

    # My TermDocumentMatrix (TDM) Nepal.tdm # Structure of my TDM str(Nepal.tdm) # My locality vector localities # Structure of my locality vector str(localities) #chr [1:344] "kalyan" "surkhet

    1热度

    1回答

    语料库我创建的语料库中的R用包TM指定语言和编码如下: de_DE.corpus <- Corpus(VectorSource(de_DE.sample), readerControl = list(language="de_DE",encoding = "UTF_8")) de_DE.corpus[36]$content de_DE.dtm <- DocumentTermMatri

    0热度

    1回答

    当我调查所得到的DTM矩阵,我发现的记号是小写,除非设置被设置为False。此外,带有下划线的单词在标记之前被拆分。 当我抬头看documentation我无法检索默认设置,或者如果没有提供明确的控制使用哪些设置。 在哪里可以找到呢?

    0热度

    1回答

    我正在尝试构建一个Shiny应用程序,该应用程序可以通过从文本框(即文本框)匹配语料库来动态显示数据库列中的句子。当用户开始在文本框中输入文本时,所有匹配的句子(文本类型中的语料)需要按照与语料库匹配的词数顺序显示 我尝试了kwic函数,但这并不帮助匹配语料库动态,做法,我试过了, require(quanteda) require(tm) data(crude, package = "tm"

    1热度

    1回答

    请参阅下面的MWE,自定义标记器不工作,为什么? TM软件包版本为0.71 library(tm) ts <- c("This is a testimonial") corpDs <- Corpus(VectorSource(ts)) #This is not working ownTokenizer <- function(x) unlist(strsplit(as.characte

    0热度

    1回答

    为什么我不能使用“TermDocumentMatrix”? 我用下面的命令以单数形式统一复数单词,但是我得到一个错误。 crudeCorp <- tm_map(crudeCorp, gsub, pattern = "smells", replacement = "smell") crudeCorp <- tm_map(crudeCorp, gsub, pattern = "feels", rep

    0热度

    1回答

    直到我使用这个短语时,“TermDocumentMatrix”是好的。 doc <- tm_map(doc, gsub, pattern = "buy", replacement = "bought") 但是,在使用这个短语之后,“TermDocumentMatrix”会产生一个错误。 Error in UseMethod("meta", x) : no applicable method

    1热度

    1回答

    有没有人设法创建一个大型的查找/替换函数/工作代码片段,在数据框中交换出已知的bigrams? 下面是一个例子。我能够不用onesie-twosie替换,但我真的想利用我想找到的大约800个术语的已知词典 - 替换,以便在DTM生成之前将它们转换为单词单元。例如,我想将“Google Analytics”转换为“google-analytics”。 我知道这在理论上是可行的;从本质上讲,自定义停用

    1热度

    1回答

    lemmes我想用外部的txt文件,结构为波兰引理如下: (来源引理对许多其他语言http://www.lexiconista.com/datasets/lemmatization/) Abadan Abadanem Abadan Abadanie Abadan Abadanowi Abadan Abadanu abadańczyk abadańczycy abadańczyk abad

    1热度

    1回答

    我有一个超过10M文档的大型语料库。每当我尝试在多个内核的改造利用mc.cores的说法,我得到错误: Error in FUN(content(x), ...) : unused argument (mc.cores = 10) 我在我目前的托管[R工作室15个可用内核。 # I have a corpus > inspect(corpus[1]) <<VCorpus>> Metada