doc2vec

    5热度

    1回答

    有什么区别请帮我理解gensim的TaggedDocument和LabeledSentence如何工作。我的最终目标是使用Doc2Vec模型和任何分类器进行文本分类。我正在关注这个blog! class MyLabeledSentences(object): def __init__(self, dirname, dataDct={}, sentList=[]): self.

    13热度

    2回答

    我要去thorugh本文http://cs.stanford.edu/~quocle/paragraph_vector.pdf ,并指出 “Theparagraph向量和词矢量的平均值或级联 预测在上下文中的下一个字在实验中,我们使用 级联作为组合向量的方法。“ 串联或平均是如何工作的? 例如(如果第1段包含WORD1和单词2): word1 vector =[0.1,0.2,0.3] word

    0热度

    1回答

    我想了解在Gensim的实现中word2vec和doc2vec向量之间的关系。在我的应用程序中,我使用相同的标签(主题)标记多个文档,我正在使用dbow_words = 1在我的语料库上训练doc2vec模型,以便训练单词向量。我已经能够以这种方式获得单词和文档向量之间的相似性,这确实具有很大的意义 例如,获取的文档标签类似于字处理 doc2vec_model.docvecs.most_simil

    3热度

    1回答

    我只是在使用gensim的Doc2Vec,分析stackexchange转储以分析问题的语义相似性以识别重复项。 Doc2Vec-Tutorial上的教程似乎将输入描述为带标记的句子。 但原文:Doc2Vec-Paper声称该方法可用于推断段落/文档的固定长度向量。 有人可以解释在这种情况下,句子和文档之间的差异,以及我会如何推断段落向量。 由于一个问题有时可能会跨越多个句子,我认为,在培训期间,

    1热度

    1回答

    我想读我的预训练doc2vec型号: from gensim.models import Doc2Vec model = Doc2Vec.load('/path/to/pretrained/model') 然而,阅读的过程中出现了错误。任何人都可以建议如何处理这个?这是错误: AttributeErrorTraceback (most recent call last) <ipython-

    1热度

    1回答

    我第一次尝试Gensim,现在有一个问题。我已经培训了一个准备好文件的语料库的LSI模型。我的问题是,如何知道新文档是否与从文档语料库生成的我的模型相似。我不想知道文档与MatrixSimilarity之类的语料库中的每个文档的相似性,而是知道文档是否与我的主题/模型相似。

    1热度

    1回答

    我想在python中使用doc2vec对两类用户输入文本进行分类。我有以下代码来训练模型,然后对输入文本进行分类。问题是,我无法找到任何分类字符串的方法。 我是新手,所以请忽略错误。 这里有一流的参考 http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.li

    1热度

    1回答

    我读被定义为两个线之间的文本/线下面的代码来学习doc2vec model.Each文件: clueweb09-en0001-XX-XXXXX end_clueweb09-en0001-XX-XXXXX 这是我的代码: path='/home/work/Step2/test-input/html' alldocs = [] # will hold all docs in original o

    1热度

    1回答

    我无法在我的计算机上加载doc2vec模型,并且出现以下错误。但是,当我在其他计算机上加载该模型时,我可以使用该模型。因此,我知道该模型构建正确。 我该怎么做。 这是代码: # coding: utf-8 from gensim.models.doc2vec import Doc2Vec import gensim.models.doc2vec from gensim.models.doc2

    1热度

    1回答

    我想使用doc2vec表示和scikit-learn模型对文本文档进行分类。 我的问题是,我迷失在如何开始。有人可以解释通常采用scikit-learn使用doc2vec的一般步骤吗?