doc2vec

1热度

1回答

我想从gensim包运行doc2vec库。我的问题是，当我在训练和保存模型的模型文件是相当大（2.5 GB），我尝试使用这一行： model.estimate_memory() 但它并没有改变任何东西。我也试图改变max_vocab_size来减少空间。但没有运气。有人可以帮我解决这个问题吗？

1热度

1回答

文档向量中的“信息”是什么使情绪预测工作？基于文件的载体

景气预测效果很好，作为例子显示： https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb http://linanqiu.github.io/2015/10/07/word2vec-sentiment/ 我不知道是什么模式的载体使之成为可能。我认为这应该是相似的向量使得某种

0热度

1回答

为什么gensim doc2vec中单词或文档向量之间几乎所有的余弦相似性都是正的？

我在gensim中使用Doc2Vec.docvecs.similarity（）计算了文档的相似度。现在，如果gensim使用余弦的绝对值作为相似度度量，或者如果不使用余弦度量的话，其中大约一半为负值，那么我希望余弦相似度位于[0.0，1.0]的范围内。但是，我所看到的是一些相似性是否定的，但它们非常罕见 - 小于我在30000套文档中两两相似之处的1％。为什么几乎所有的相似性都是正面的？

0热度

1回答

如何使Doc2Vec文档向量都是正向的？

我正在尝试在Doc2Vec的输出上使用非负矩阵分解。但是有一个限制，就是不能有负面的投入。如果没有做出像解释结果的绝对价值那样的东西，我该如何使它积极？如果有帮助，我在加载一个新的段落并计算相似度，但我认为使用Doc2Vec会获得更多的意义。

1热度

1回答

文档聚类和可视化

我想测试一组文档是否有一些特殊的相似性，查看与每个人的向量表示一起构建的图形，以及其他文档的文本数据集。我想他们会一起在一个可视化。解决方法是使用doc2vec来计算每个文档的矢量并绘制它？它能以无人监督的方式完成吗？我应该使用哪个Python库来获得Word2vec的美丽2D和3D表示？

0热度

1回答

如何从gensim中的文档中删除停用词？

我正在Python中使用它的gensim包使用Doc2Vec技术构建NLP聊天应用程序。我已经完成了词干化和词干化。我想从训练集以及用户抛出的问题中删除停用词（以测试它是否更好）。这是我的代码。 import gensim import nltk from gensim import models from gensim import utils from gensim import c

2热度

1回答

如何在gensim中使用TaggedDocument？

我有两个目录，我想读他们的文本文件和标签，但我不知道如何通过TaggedDocument做到这一点，我认为它会作为TaggedDocument（[字符串]，[标签]），但这doesn显然工作。这是我的代码： from gensim import models from gensim.models.doc2vec import TaggedDocument import utilities as

0热度

1回答

为什么Doc2Vec.scale_vocab（...）['记忆'] ['vocab']除以700以获得词汇大小？

从Doc2Vec维基教程在https://github.com/RaRe-Technologies/gensim/blob/master/docs/notebooks/doc2vec-wikipedia.ipynb for num in range(0, 20): print('min_count: {}, size of vocab: '.format(num), pre

0热度

1回答

Gensim Doc2Vec模型只生成有限数量的向量

我正在使用gensim Doc2Vec模型来生成我的特征向量。这里是我使用的代码（我已经解释了我的问题是在代码是什么）： cores = multiprocessing.cpu_count() # creating a list of tagged documents training_docs = [] # all_docs: a list of 53 strings which ar

1热度

1回答

如何提高doc2vec模型中两个文档（句子）的余弦相似度？

我正在使用gensim库通过doc2vec模型在Python中构建NLP聊天应用程序。我有硬编码的文档并给出了一组训练示例，我通过抛出用户问题来测试模型，然后找到大多数类似的文档作为第一步。在这种情况下，我的测试问题是来自培训示例的文档的精确副本。 import gensim from gensim import models sentence = models.doc2vec.Labeled