tf-idf

    1热度

    2回答

    非常感谢您在TF/IDF网站上提供的帮助。它帮助我很多在Java中使用tf-idf函数。我做了tf,但我有一个问题。就像他们在wiki上写的那样,IDF可以计算出有多少文档有这个词。但我很困惑。 例如,这里是字符串“JosAH很棒,JoshAH岩石”,所以TF将是2/5,IDF有两个文件,每个文件包含JoshAH术语。所以 我们只要看看这个词是否出现在其他文档中,或者我们会看到它在其他文档中出现了

    4热度

    3回答

    我正在使用TF/IDF来计算相似度。例如,如果我有以下两个文档。 Doc A => cat dog Doc B => dog sparrow 这是正常的它的相似性是50%,但是当我计算它的TF/IDF。它是作为按照 TF值文件甲 dog tf = 0.5 cat tf = 0.5 TF为文件B值 dog tf = 0.5 sparrow tf = 0.5 进行DOC IDF值甲

    5热度

    3回答

    我计算了两个文档的tf/idf值。下面是TF/IDF值: 1.txt 0.0 0.5 2.txt 0.0 0.5 的文件是这样的: 1.txt = > dog cat 2.txt = > cat elephant 如何使用这些值来计算余弦相似? 我知道我应该计算点积,然后找到距离并除以它的点积。我如何使用我的值来计算此值? 还有一个问题:重要的是两个文件应该有相同数量的单词吗?

    3热度

    2回答

    TF-IDF (term frequency - inverse document frequency)是信息检索的主要部分。虽然这不是一个合适的模型,并且在将新术语引入到语料库时似乎会崩溃。当查询或新文件有新词时,人们如何处理它,尤其是在频率较高的情况下。在传统的余弦匹配下,这些对整个匹配没有影响。

    3热度

    1回答

    我想用tf-idf来计算术语频率。我已经草拟了一个方程式,您应该在左侧获得tf-idf值。它是否正确? TF-IDF为DOCUMENT: tf-idf(WORD) = occurrences(WORD,DOCUMENT)/number-of-words(DOCUMENT) * log10 (documents(ALL)/(1 + documents(WORD, ALL))) occurrenc