tf-idf

1热度

2回答

非常感谢您在TF/IDF网站上提供的帮助。它帮助我很多在Java中使用tf-idf函数。我做了tf，但我有一个问题。就像他们在wiki上写的那样，IDF可以计算出有多少文档有这个词。但我很困惑。例如，这里是字符串“JosAH很棒，JoshAH岩石”，所以TF将是2/5，IDF有两个文件，每个文件包含JoshAH术语。所以我们只要看看这个词是否出现在其他文档中，或者我们会看到它在其他文档中出现了

4热度

3回答

tf idf相似度

我正在使用TF/IDF来计算相似度。例如，如果我有以下两个文档。 Doc A => cat dog Doc B => dog sparrow 这是正常的它的相似性是50％，但是当我计算它的TF/IDF。它是作为按照 TF值文件甲 dog tf = 0.5 cat tf = 0.5 TF为文件B值 dog tf = 0.5 sparrow tf = 0.5 进行DOC IDF值甲

5热度

3回答

余弦相似度

我计算了两个文档的tf/idf值。下面是TF/IDF值： 1.txt 0.0 0.5 2.txt 0.0 0.5 的文件是这样的： 1.txt = > dog cat 2.txt = > cat elephant 如何使用这些值来计算余弦相似？我知道我应该计算点积，然后找到距离并除以它的点积。我如何使用我的值来计算此值？还有一个问题：重要的是两个文件应该有相同数量的单词吗？

3热度

2回答

tf-idf和以前未见的术语

TF-IDF (term frequency - inverse document frequency)是信息检索的主要部分。虽然这不是一个合适的模型，并且在将新术语引入到语料库时似乎会崩溃。当查询或新文件有新词时，人们如何处理它，尤其是在频率较高的情况下。在传统的余弦匹配下，这些对整个匹配没有影响。

3热度

1回答

Tf-idf：这种方法是否正确？

我想用tf-idf来计算术语频率。我已经草拟了一个方程式，您应该在左侧获得tf-idf值。它是否正确？ TF-IDF为DOCUMENT： tf-idf(WORD) = occurrences(WORD,DOCUMENT)/number-of-words(DOCUMENT) * log10 (documents(ALL)/(1 + documents(WORD, ALL))) occurrenc