text2vec

1热度

4回答

我想使用大型外部词典（类似于下面的txt变量的格式）来解读波兰文本。我不幸运，有一个选择波兰文与流行的文本挖掘软件包。 @DmitriySelivanov的答案https://stackoverflow.com/a/45790325/3480717与简单的文本向量一起工作良好。（我也从字典和语料库中删除了波兰的变音符号。）该函数可以很好地处理文本向量。不幸的是，它不适用于由tm生成的语料库格式

0热度

1回答

text2vec和RHadoop

目前之间的相容性，我们使用在AWS EC2（单个实例）text2vec处理大数据集时，文本数据将在未来越来越大，我们可能会尝试RHadoop（MapReduce的）架构和别t知道它是否可以兼容text2vec和RHadoop（MapReduce）。

1热度

1回答

词形还原使用txt文件与R中

lemmes我想用外部的txt文件，结构为波兰引理如下：（来源引理对许多其他语言http://www.lexiconista.com/datasets/lemmatization/） Abadan Abadanem Abadan Abadanie Abadan Abadanowi Abadan Abadanu abadańczyk abadańczycy abadańczyk abad

1热度

1回答

从单词向量到文档向量[text2vec]

我想使用在text2vec中实现的GloVe单词嵌入来执行有监督的回归/分类。我阅读了关于如何生成单词向量的text2vec主页上的有用教程。然而，我很难理解如何进一步进行，即应用或转换这些单词向量，并将它们附加到每个文档中，使得每个文档都由一个向量表示（从其组成单词'我假设的向量派生而来'），在分类器中用作输入。我在网上找到了一些短文档的快速修复，但是我的文档相当长（电影字幕），似乎没有关于如何

2热度

1回答

text2vec和topicmodels可以通过适合LDA的参数设置生成相似的主题吗？

我想知道不同的软件包，因此，算法的结果有什么不同，以及参数是否可以设置为产生类似的主题。我特别看了包text2vec和topicmodels。我使用下面的代码来比较使用这些包生成的10个主题（请参阅代码部分的术语）。我无法设法产生具有类似含义的主题集。例如。来自text2vec的话题10与“警察”有关，topicmodels所产生的主题都不涉及“警察”或类似术语。此外，我无法确定由topicmo

0热度

1回答

LDA $新模式的构造text2vec [R包错误：错误.subset2（public_bind_env， “初始化”）（...）：未使用的参数（...）

的错误是： > lda_model = LDA$new(n_topics = 3, vocabulary = vocab, doc_topic_prior = 0.1, topic_word_prior = 0.01) Error in .subset2(public_bind_env, "initialize")(...) : unused argument (vocabulary

0热度

1回答

使用text2vec包进行文本预处理和主题建模

我有大量文档，并且想使用text2vec和LDA（Gibbs Sampling）进行主题建模。步骤我需要的是为（按顺序）：从文本中删除数字和符号 library(stringr) docs$text <- stringr::str_replace_all(docs$text,"[^[:alpha:]]", " ") docs$text <- stringr::str_replace_all

0热度

1回答

带插入符号的Text2Vec分类 - 朴素贝叶斯警告消息

有关更多上下文，请参阅question listed here。我试图使用text2vec构建的文档术语矩阵来训练使用caret包的朴素贝叶斯（nb）模型。但是，我得到这样的警告消息：警告消息：在的eval（XPR，ENVIR = ENVIR）：模型拟合失败Fold01.Rep1：usekernel = FALSE，FL = 0，调整= 1个错误NaiveBayes.default（X，Y

0热度

2回答

如何仅从存储的单词列表中生成text2vector中的文档术语矩阵

text2vec中的语法是如何将文本向量化并仅通过指定的单词列表实现dtm？如何仅在指示的要素上进行矢量化并生成文档项矩阵？如果功能没有出现在文本中，变量应该保持空白。我需要生成与dtm中运行建模的字段完全相同的文档矩阵，否则我无法在新文档上使用随机森林模型。 - 它不会工作好2）执行 v = create_vocabulary(c("word1", "word2")) vectorizer

0热度

1回答

TM，Quanteda，text2vec。根据正则表达式模式获取词表左边的字符串

我想分析一个大文本文件夹，用于存在多种语言的名称，地址和电话号码。这些通常会以“地址”，“电话号码”，“名称”，“公司”，“医院”，“送达者”之前。我会有这些词的字典。我在想，如果文本挖掘工具是完美的工作。我想为所有这些文档创建一个语料库，然后在给定字典条目的右侧或下方找到符合特定（我正在考虑正则表达式条件）的文本。在R中的数据挖掘软件包中是否有这样的语法，以获取字词表条目右侧或下侧的字