doc2vec

    1热度

    1回答

    我想从gensim包运行doc2vec库。我的问题是,当我在训练和保存模型的模型文件是相当大(2.5 GB),我尝试使用这一行: model.estimate_memory() 但它并没有改变任何东西。我也试图改变max_vocab_size来减少空间。但没有运气。有人可以帮我解决这个问题吗?

    1热度

    1回答

    景气预测效果很好,作为例子显示: https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb http://linanqiu.github.io/2015/10/07/word2vec-sentiment/ 我不知道是什么模式的载体使之成为可能。我认为这应该是相似的向量使得某种

    0热度

    1回答

    我在gensim中使用Doc2Vec.docvecs.similarity()计算了文档的相似度。现在,如果gensim使用余弦的绝对值作为相似度度量,或者如果不使用余弦度量的话,其中大约一半为负值,那么我希望余弦相似度位于[0.0,1.0]的范围内。 但是,我所看到的是一些相似性是否定的,但它们非常罕见 - 小于我在30000套文档中两两相似之处的1%。 为什么几乎所有的相似性都是正面的?

    0热度

    1回答

    我正在尝试在Doc2Vec的输出上使用非负矩阵分解。但是有一个限制,就是不能有负面的投入。如果没有做出像解释结果的绝对价值那样的东西,我该如何使它积极?如果有帮助,我在加载一个新的段落并计算相似度,但我认为使用Doc2Vec会获得更多的意义。

    1热度

    1回答

    我想测试一组文档是否有一些特殊的相似性,查看与每个人的向量表示一起构建的图形,以及其他文档的文本数据集。我想他们会一起在一个可视化。 解决方法是使用doc2vec来计算每个文档的矢量并绘制它?它能以无人监督的方式完成吗?我应该使用哪个Python库来获得Word2vec的美丽2D和3D表示?

    0热度

    1回答

    我正在Python中使用它的gensim包使用Doc2Vec技术构建NLP聊天应用程序。我已经完成了词干化和词干化。我想从训练集以及用户抛出的问题中删除停用词(以测试它是否更好)。 这是我的代码。 import gensim import nltk from gensim import models from gensim import utils from gensim import c

    2热度

    1回答

    我有两个目录,我想读他们的文本文件和标签,但我不知道如何通过TaggedDocument做到这一点,我认为它会作为TaggedDocument([字符串],[标签]),但这doesn显然工作。这是我的代码: from gensim import models from gensim.models.doc2vec import TaggedDocument import utilities as

    0热度

    1回答

    从Doc2Vec维基教程在https://github.com/RaRe-Technologies/gensim/blob/master/docs/notebooks/doc2vec-wikipedia.ipynb for num in range(0, 20): print('min_count: {}, size of vocab: '.format(num), pre

    0热度

    1回答

    我正在使用gensim Doc2Vec模型来生成我的特征向量。这里是我使用的代码(我已经解释了我的问题是在代码是什么): cores = multiprocessing.cpu_count() # creating a list of tagged documents training_docs = [] # all_docs: a list of 53 strings which ar

    1热度

    1回答

    我正在使用gensim库通过doc2vec模型在Python中构建NLP聊天应用程序。我有硬编码的文档并给出了一组训练示例,我通过抛出用户问题来测试模型,然后找到大多数类似的文档作为第一步。在这种情况下,我的测试问题是来自培训示例的文档的精确副本。 import gensim from gensim import models sentence = models.doc2vec.Labeled