text2vec

    1热度

    4回答

    我想使用大型外部词典(类似于下面的txt变量的格式)来解读波兰文本。我不幸运,有一个选择波兰文与流行的文本挖掘软件包。 @DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717与简单的文本向量一起工作良好。 (我也从字典和语料库中删除了波兰的变音符号。)该函数可以很好地处理文本向量。 不幸的是,它不适用于由tm生成的语料库格式

    0热度

    1回答

    目前之间的相容性,我们使用在AWS EC2(单个实例)text2vec处理大数据集时,文本数据将在未来越来越大,我们可能会尝试RHadoop(MapReduce的)架构和别t知道它是否可以兼容text2vec和RHadoop(MapReduce)。

    1热度

    1回答

    lemmes我想用外部的txt文件,结构为波兰引理如下: (来源引理对许多其他语言http://www.lexiconista.com/datasets/lemmatization/) Abadan Abadanem Abadan Abadanie Abadan Abadanowi Abadan Abadanu abadańczyk abadańczycy abadańczyk abad

    1热度

    1回答

    我想使用在text2vec中实现的GloVe单词嵌入来执行有监督的回归/分类。我阅读了关于如何生成单词向量的text2vec主页上的有用教程。然而,我很难理解如何进一步进行,即应用或转换这些单词向量,并将它们附加到每个文档中,使得每个文档都由一个向量表示(从其组成单词'我假设的向量派生而来'),在分类器中用作输入。我在网上找到了一些短文档的快速修复,但是我的文档相当长(电影字幕),似乎没有关于如何

    2热度

    1回答

    我想知道不同的软件包,因此,算法的结果有什么不同,以及参数是否可以设置为产生类似的主题。我特别看了包text2vec和topicmodels。 我使用下面的代码来比较使用这些包生成的10个主题(请参阅代码部分的术语)。我无法设法产生具有类似含义的主题集。例如。来自text2vec的话题10与“警察”有关,topicmodels所产生的主题都不涉及“警察”或类似术语。此外,我无法确定由topicmo

    0热度

    1回答

    的错误是: > lda_model = LDA$new(n_topics = 3, vocabulary = vocab, doc_topic_prior = 0.1, topic_word_prior = 0.01) Error in .subset2(public_bind_env, "initialize")(...) : unused argument (vocabulary

    0热度

    1回答

    我有大量文档,并且想使用text2vec和LDA(Gibbs Sampling)进行主题建模。 步骤我需要的是为(按顺序): 从文本中删除数字和符号 library(stringr) docs$text <- stringr::str_replace_all(docs$text,"[^[:alpha:]]", " ") docs$text <- stringr::str_replace_all

    0热度

    1回答

    有关更多上下文,请参阅question listed here。 我试图使用text2vec构建的文档术语矩阵来训练使用caret包的朴素贝叶斯(nb)模型。但是,我得到这样的警告消息: 警告消息: 在的eval(XPR,ENVIR = ENVIR): 模型拟合失败Fold01.Rep1:usekernel = FALSE,FL = 0,调整= 1个错误NaiveBayes.default(X,Y

    0热度

    2回答

    text2vec中的语法是如何将文本向量化并仅通过指定的单词列表实现dtm? 如何仅在指示的要素上进行矢量化并生成文档项矩阵?如果功能没有出现在文本中,变量应该保持空白。 我需要生成与dtm中运行建模的字段完全相同的文档矩阵,否则我无法在新文档上使用随机森林模型。 - 它不会工作好2)执行 v = create_vocabulary(c("word1", "word2")) vectorizer

    0热度

    1回答

    我想分析一个大文本文件夹,用于存在多种语言的名称,地址和电话号码。 这些通常会以“地址”,“电话号码”,“名称”,“公司”,“医院”,“送达者”之前。我会有这些词的字典。 我在想,如果文本挖掘工具是完美的工作。 我想为所有这些文档创建一个语料库,然后在给定字典条目的右侧或下方找到符合特定(我正在考虑正则表达式条件)的文本。 在R中的数据挖掘软件包中是否有这样的语法, 以获取字词表条目右侧或下侧的字