我已经应用Doc2vec将文档转换为矢量。之后,我使用矢量进行聚类,并找出每个聚类的质心最近/最相似的文档。现在我需要找到这些文档中最重要或最重要的术语,以便我能够弄清楚每个集群的特征。 我的问题是有什么方法可以找出Doc2vec中文档中最主要或最相近的术语/单词。我正在使用python的gensim包来实现Doc2vec的实现如何在doc2vec中找到文档中最相似的术语/词汇?
0
A
回答
1
要找出群集中最主要的单词,您可以使用这两种经典方法中的任何一种。我个人发现第二个非常有效和有效的这个目的。
潜在Drichlet分配(LDA)潜在Drichlet分配(LDA):一个主题建模算法,将给你一组主题给定一组文档。您可以将群集中的一组相似文档视为一个文档,并应用LDA生成主题并查看跨文档的主题分布。
TF-IDF:TF-IDF计算给定文档集合的单词对文档的重要性。因此,要查找最重要的关键字/ ngrams,可以为出现在文档中的每个单词计算TF-IDF。 TF-IDF最高的词就是你的关键词。所以:
- 计算IDF为出现在基于对包含该关键字
- 串联的类似文件的文本文档号文件的每一个字(我会称之为超文件)然后计算出现在这个超级文档中的每个单词的TF。
- 为每个单词计算TF * IDF ...然后TA DAAA ...您将关键字与每个集群关联起来。
请参阅第5.1节,了解更多关于使用TF-IDF的详细信息。
1
@ TrnKh的answer是好的,但有一个附加选项使用Doc2Vec
时可用。
一些gensim Doc2Vec训练模式 - 将默认PV-DM(dm=1
)或PV-DBOW与增加的单词训练(dm=0, dbow_words=1
)列车都DOC的载体和字矢量到相同的坐标空间中,并在一定程度这意味着doc-vectors是相关的词向量,反之亦然。
因此,您可以将单个文档的矢量或您合成的平均/质心矢量提供给模型,以找到most_similar()
单词。 (为了清楚,这是一个原始矢量,而不是载体密钥的列表,则应该使用的most_similar()
形式指定的positive
例子的显式列表。)
例如:
docvec = d2v_model.docvecs['doc77145'] # assuming such a doc-tag exists
similar_words = d2v_model.most_similar(positive=[docvec])
print(similar_words)
相关问题
- 1. 如何在Perl文档中找到一些特定的术语?
- 2. 从一组文档中找到最相似的文档(最近的邻居)
- 3. 如何找到在列表最相似的词在python
- 4. 如何提高doc2vec模型中两个文档(句子)的余弦相似度?
- 5. 基于受控词汇表的文档的相似性度量
- 6. 词在DB - 通过词汇字典(语义相似)
- 7. 如何确定每个文档中术语的术语频率?
- 8. Doc2Vec Gensim文档和主题之间的相似性
- 9. 将重要术语和模式的词汇表放在文档的哪里?
- 10. 如何在PHP中为拼写错误的单词找到相似的单词?
- 11. 在网站开发中,什么是“术语”,“分类术语”和“词汇”?
- 12. 在字符串中查找单词时计算术语文档矩阵也
- 13. 具有最多1个父项的分类词汇表术语?
- 14. 如何在Java中搜索相似的单词和短语?
- 15. 如何在`solr`中找到仅包含搜索词的文档
- 16. 如何在Lucene中索引文档中的所有术语?
- 17. Drupal自动词汇表特定术语
- 18. 如何在短语中使用doc2vec?
- 19. HTML/jQuery:语义标签正文副本中启用词汇表的术语
- 20. 在数组中查找包含特定术语的文档
- 21. 通过在python中使用余弦相似度返回最相似的文档与查询文档相比较
- 22. 文字中的外语词汇
- 23. 从Prolog中的谓词知识库中找到最相似的列表
- 24. 如何在两个CSV文件中找到相似的行?
- 25. mysql中的词相似性/相似性
- 26. 如何找到修改后的文件最相似的提交?
- 27. 寻找相似的单词或短语从两个文本
- 28. 如何为每个术语保留k个最相似的术语记录并用0替换不太相似的术语
- 29. 制作技术术语词汇表的体面工具
- 30. 如何在gensim 0.11.1中从Doc2Vec获取文档向量?
请提供文档的示例文本以及代码。 –