tf-idf

4热度

3回答

受启发this答案，我试图找到训练有素的tf-idf向量化器和新文档之间的余弦相似度，并返回相似的文档。下面的代码查找第一矢量的余弦相似性，而不是一个新的查询 >>> from sklearn.metrics.pairwise import linear_kernel >>> cosine_similarities = linear_kernel(tfidf[0:1], tfidf).flat

0热度

1回答

的Python：如何计算TF-IDF的大型数据集

我有一个下面的数据帧df，这是我从sframe URI name text 0 <http://dbpedia.org/resource/Digby_M... Digby Morrell digby morrell born 10 october 1979 i... 1 <http://dbpedia.org/resource/Alfred_... Alfred J

0热度

1回答

使用TF-IDF提取关键字

我正在解决在文章中使用TF-IDF进行关键字提取的问题。我遵循的管道去如下：输入文本记号化到句子来增加词汇量应用CountVectorizer建立每个句子的计数向量。应用TfidfTransformer为其分配权重。但是，我面临的问题是，我收到的每个令牌的分数都与句子有关，我想要的是令牌在上下文中对整篇文章的分数。那么我该如何去实现呢？例如：这是我的玩具文字。 “拉希德·西迪基一直

0热度

1回答

如何用TF-IDF文档 - 术语矩阵表示新文档，以及如何用大矩阵实现生产？

假设我有一个关于TF-IDF权重的文档词表矩阵，用于表示某些文档的词袋。例如。在R： library(tm) x <- c("a cat sat on a mat", "cat and dog are friends", "friends are sitting on a mat") corpus <- Corpus(VectorSource(x)) dtm <- DocumentTermM

0热度

2回答

计算总值字典

我有一个问题，如何计算相同键的总字典？我有一个字典： {'learning': {'DOC1': 0.14054651081081646, 'DOC2': 0, 'DOC3': 0.4684883693693881}, 'life': {'DOC1': 0.14054651081081646, 'DOC2': 0.2007807297297377

1热度

1回答

关于数字的Spark IDFModel

我想在“文档”内容是数字标识符（而不是文本）的数据上执行TF-IDF模型。所以我不想散列它们，只需使用数值即可。任何简单的方法来产生org.apache.spark.mllib.linalg.VectorUDT？我必须编写自己的非哈希HashingTF吗？或者自己计算tfidf更简单吗？

2热度

1回答

为什么我的文本集群会执行此操作

我有一个包含产品名称的未标记数据集。例如，棒球衫，夹克衫，活跃的经典拳击手等。我创建了一个tf-idf矩阵与数据，然后我在矩阵上运行k-means。我绘制平方的内群集总和以发现是5 聚类后我想出文件 # cosine similarity between each document from sklearn.metrics.pairwise import cosine_similarity

1热度

1回答

TfidfVectorizer：ValueError异常：没有内置的禁止入境名单：俄语

我试图与俄罗斯停止字 Tfidf = sklearn.feature_extraction.text.TfidfVectorizer(stop_words='russian') Z = Tfidf.fit_transform(X) 适用TfidfVectorizer，我也得到 ValueError: not a built-in stop list: russian 当我用英语停止的话这

3热度

1回答

如何分析sklearn中的tfidf矩阵的值？

我使用文档聚类sklearn k均值算法如 http://brandonrose.org/clustering 引导这里有TFIDF矩阵的计算。我已经理解了TFIDF技术背后的概念。但是，当我在给定的程序的印刷这种矩阵，该矩阵是这样的， (0, 11) 0.238317554822 (0, 34) 0.355850989305 (0, 7) 0.355850989305

0热度

2回答

默认情况下，Lucene（java框架）会根据术语计算文档的tf-idf和余弦相似度吗？

我正在开发一个基于搜索引擎的应用程序，并且正在研究Lucene java框架，我被默认的lucene提供的评分功能弄糊涂了，比如默认的tf-idf和余弦相似度计分功能是否实现，或者我们必须做别的事吗？ public class LuceneTester { String indexDir = "C:\\Users\\hamda\\Documents\\NetBeansProjects\\luc