2011-03-12 40 views
1

我正在开发一些软件,旨在通过执行TF-IDF(与一般英语语料库相比删除常见单词进行比较)来唯一标识网页。花了一段时间找到一个好的免费语料库(http://www.wordfrequency.info/top5000.asp),但是,这个语料库只提供频率和分散度。它没有说明语料库中包含了多少文档,所以我无法编制IDF表格。它包含一个分散值,范围从0到1,其中1表示在每个文档中出现一个词。 有没有人知道(或可以找出)使用这些数据来实现类似IDF表的方法? 此外,如果任何人知道一个免费的语料库,其中包括我需要的信息,就像赞赏一样。 感谢TF-IDF语料库有没有可能使用散布

回答

4
IDF = log (Total Documents in Corpus/Total Documents containing the term) 

如果分散是含有条件的文档的分数,则:log (1/dispersion)将是IDF

+1

你不会相信我是多么面对伪称当我意识到这一点。不过谢谢 – nonamenonumber 2011-03-12 21:45:43

相关问题