doc2vec

    0热度

    1回答

    我想基于他们喜欢的最后N个文档来形成用户的表示。 因此,我打算使用doc2vec来形成每个文档的这种表示形式,但我只是想弄清楚什么是将用户放在同一空间中的一种好方法。 像平均他们消费的最后5个文档的向量一样简单,但想不到这是否有点愚蠢。也许某种空间方式可能是可能的。 然后我想知道 - 我们只是在doc2vec中使用文档ID相同的方式,只是添加一个用户ID令牌,并尝试以这种方式得到一个用户的表示作为

    0热度

    1回答

    我想重复使用名称相似度的公司(40M +)的巨大列表。我有一个500K的公司名称对被标记为相同/不相同(如I.B.M. =国际商用机器)。通过对名称对的向量差异进行逻辑回归建立的模型具有很好的f-分数(0.98),但推论(找到最相似的名字)太慢(每名称差不多2秒)。 是否可以使用名称相似性对(正值和负值)来训练doc2vec模型,从而导致类似名称具有相似的向量,以便我可以使用像Annoy这样的快速

    1热度

    1回答

    应用类似的功能 我试图让doc2vec功能在Python 3 工作,我有以下代码: tekstdata = [[ index, str(row["StatementOfTargetFiguresAndPoliciesForTheUnderrepresentedGender"])] for index, row in data.iterrows()] def prep (x): low

    0热度

    1回答

    我试图理解doc2vec,我可以用它来解决我的情况。我想使用TaggedSentences([words],[tags])为一个或多个标签标注句子,但不确定如果我的理解是正确的。 所以基本上,我需要这样的事情发生(或我完全没谱) 我创建2个TaggedDocuments TaggedDocument(words=["the", "bird", "flew", "over", "the", "coo

    1热度

    2回答

    我发现成功的权重主题为增加这似乎是一句比较在我的情况下工作的词矢量: query1 = vectorize_query("human cat interaction") query2 = vectorize_query("people and cats talk") query3 = vectorize_query("monks predicted frost") query4 = vect

    2热度

    1回答

    我用自己的词汇训练word2vec时出现错误。我也不明白为什么会发生。 代码: from gensim.models import word2vec import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO) sentences = wo

    0热度

    3回答

    我正在使用doc2vec转换我的追随者在向量表示中的前100个推文(称为v1 ..... v100)。之后,我使用向量表示来完成K均值聚类。 model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2) 我可以看到集群0被某些值(比如v10,v12,v23,...)所支配。我的问题是这

    0热度

    1回答

    doc2vec在不同大小的数据集上训练时如何执行?在原始语料库中没有提及数据集的大小,所以我想知道从doc2vec中获得良好性能所需的最小大小是多少。

    0热度

    1回答

    只需阅读gensim页面上的doc2vec命令即可。 我很好奇命令“intersect_word2vec_format”。 我对这个命令的理解是,它允许我将预训练的word2vec模型中的矢量值插入到我的doc2vec模型中,然后使用预训练的word2vec值训练我的doc2vec模型,而不是从我的文档语料库生成单词矢量值。结果是我得到了一个更准确的doc2vec模型,因为我使用的pretrain

    0热度

    2回答

    我已经应用Doc2vec将文档转换为矢量。之后,我使用矢量进行聚类,并找出每个聚类的质心最近/最相似的文档。现在我需要找到这些文档中最重要或最重要的术语,以便我能够弄清楚每个集群的特征。 我的问题是有什么方法可以找出Doc2vec中文档中最主要或最相近的术语/单词。我正在使用python的gensim包来实现Doc2vec的实现