tf-idf

1热度

1回答

我发现文档之间的余弦相似..我做了这样的 D1 =（8,0,0,1），其中8,0,0,1是的TF-IDF得分术语T1，T2，T3，T4 D2 =（7,0,0,1） COS（THETA）=（56 + 0 + 0 + 1）/ SQRT（64 + 49）SQRT （1 +1）其中出来是 COS（THETA）= 5 现在我该如何评估这个值......我不明白cos（θ）= 5是什么意思，它们表明它们之间

1热度

2回答

期限频率计算

我需要计算术语的术语频率... 我所做的只是“计算该术语在该文档中出现的次数”......如果该术语出现了138次我把tf的值作为138 .... mi做对了.. ?? 当我读到的地方 termfrequency（tf）= term term /文档中没有单词...如果这是真的den如何计算文档中的单词no ......如果有一些正则表达式呢？？请做reply..thankü

1热度

1回答

Lucene numDocs和doqFreq上的自定义相似度类

即时做一个应用程序与Lucene（我是一个noob与它）和IM面临一些问题。我aplication采用了Lucene 2.4.0库与自定义similaraty实现（广口瓶进口）在我的应用程序的IM计算doqFreq和numDocs手动（IM将所有指标的值，然后我在计算全球价值为了在每个查询中使用它），我想在自定义相似性实现上使用这些值来计算新的IDF。问题是，我不知道如何使用（或发送）新的d

1热度

3回答

创建一个数据集：从文本文档中提取特征（TF-IDF）

我必须从一些文本文件创建数据集，将它们编写为要素向量。像这样： doc1: 1,0.45 6,0.001 94,0.1 ... doc2: 3,0.5 98,0.2 ... ... 向量的每个位置代表一个词，分数由类似TF-IDF给出。你知道一些图书馆/工具/这是什么吗？（java更好）

1热度

1回答

将文档添加到得分的TF-IDF集合中？

我有一大堆已经计算好TF-IDF的文档。我准备向集合中添加更多文档，并且我想知道是否有一种方法可以在不重新处理整个数据库的情况下将TF-IDF分数添加到新文档中？

1热度

3回答

从lucene索引查询获取向量空间模型（tf-idf）

我需要从lucene查询的结果中获取向量空间模型（使用tf-idf加权），并且无法弄清楚如何执行它。它看起来应该很简单，在这个阶段，也许你们中的一个人可以指出我正确的方向。我一直在试图弄清楚如何做到这一点，或者我没有注意到我已阅读的内容是我需要的东西（更可能），或者解决方案没有已发布到我的特定问题。我甚至试图直接从查询结果中计算VSM，但我的解决方案具有可怕的复杂性。编辑：对于别人谁在此跌倒，

4热度

1回答

Ngram IDF平滑

我正尝试使用IDF分数在我非常庞大的文档中找到有趣的短语。我基本上需要像亚马逊的统计不可能的短语，即区分一个文件和所有其他短语我遇到的问题是，我的数据中有一些（3,4） - 有超高IDF实际上包含组件unigrams和bigrams，它们的idf非常低。例如，“你从未尝试过”具有非常高的idf，而每个组件unigrams的idf都很低。我需要来使用一个函数可以获取n-gram及其所有组件（

6热度

2回答

使用SQL计算TF-IDF

我在我的数据库中包含一个包含自由文本字段列的表。我想知道每个单词在所有行上出现的频率，或者甚至可以为所有单词计算一个TF-IDF，其中我的文档是该行每个行的值。是否有可能使用SQL查询来计算这个值？如果不是或者有一种更简单的方法，你可以请我指导它吗？非常感谢，乔恩

45热度

5回答

简单实现的N-gram，TF-IDF和余弦相似性在Python

的，我需要将存储在一个数据库文件，并拿出了0和1 我需要用在方法之间的相似性得分很简单。实现n-grams的vanilla版本（可以定义使用多少克），以及tf-idf和余弦相似度的简单实现。是否有任何计划可以做到这一点？或者我应该从头开始写这个？

-1热度

1回答

余弦相似性问题

我已经计算了文档1和文档2的术语的tf-idf值..现在我不知道如何使用这些tf-idf值...基本上我想找到两个文档之间的相似度（in我的情况是网页）..可以任何机构告诉如何实现余弦相似性，jaccard系数找到相似性... c＃代码将不胜感激。请帮助...谢谢