tf-idf

    1热度

    2回答

    目标是评估大型文本语料库中词语之间的语义相关性,例如。 '警察'和'犯罪'应该比'警察'和'山'有更强的语义相关性,因为它们倾向于在相同的背景下共同发生。 我读过的最简单的方法是从语料库中提取IF-IDF信息。 很多人都使用潜在语义分析来发现语义相关性。 我遇到了Lucene搜索引擎:http://lucene.apache.org/ 你认为这是合适的提取IF-IDF? 对于技术和软件工具(对于J

    0热度

    2回答

    我需要在Google应用引擎中实现“逆文档频率”。我正在寻求提高效率的建议。现在我走基本例程如, 解析网页时我保存每一对数据存储,等, for(String phrase : phrase_collection){ dataStore.put(phrase, domain); } 计算IDF时 以后我取从数据存储中的短语的出现,如, for(String phrase : phra

    24热度

    5回答

    感谢您给我的所有帮助。 我刚刚得到了一个似乎困惑我的小问题。 TF-IDF和余弦相似性。 我正在阅读两篇文章,然后在余弦相似度下的wiki上我发现这个句子“在信息检索的情况下,两个文档的余弦相似度范围从0到1,因为术语频率(tf-idf权重)不能为负,两个频率向量之间的夹角不能大于90°。 现在我想知道....他们不是2种不同的东西吗? tf-idf已经在余弦相似度内吗?如果是的话,那到底是什么?

    1热度

    1回答

    我正在构建一个系统,我只想显示过去几天索引的结果。 此外,如果我只想返回几天(数千个文档)的结果,我不想维护一个包含一百万个文档的巨型索引。另一方面,我的系统严重依赖索引中存储的文档中出现的条目具有现实的分布(因此:实际的IDF)。这就是说,我想使用一个小的索引来返回结果,但我想从一个更大的索引(甚至外部源)使用IDF计算文档分数。 Similarity API似乎不允许我这样做。 idf方法没有

    2热度

    1回答

    Lucene具有很强的增量索引功能。从头开始开发IR系统通常是一件痛苦的事情。 我想知道如果我可以使用低级别的Lucene APIs仅将它用作倒排索引,即用于倒排列表,位置信息,词频,idfs,现场存储等的存储... 底线是我想实现我自己的权重和文件评分。我知道Similarity班,但它没有给我想要的灵活性。

    0热度

    2回答

    // Calculating term frequency System.out.println("Please enter the required word :"); Scanner scan = new Scanner(System.in); String word = scan.nextLine(); String[] array = word.s

    1热度

    1回答

    我正在开发一些软件,旨在通过执行TF-IDF(与一般英语语料库相比删除常见单词进行比较)来唯一标识网页。花了一段时间找到一个好的免费语料库(http://www.wordfrequency.info/top5000.asp),但是,这个语料库只提供频率和分散度。它没有说明语料库中包含了多少文档,所以我无法编制IDF表格。它包含一个分散值,范围从0到1,其中1表示在每个文档中出现一个词。 有没有人知

    6热度

    2回答

    除了在文本内容字段上使用tf-idf相似度的标准字词搜索外,我还希望基于数字字段的“相似性”进行评分。这种相似性将取决于查询中和文档中的值之间的距离(例如,具有m = [用户输入],s = 0.5的高斯) 即,假设文件代表的人,和个人文档具有两个字段: 说明(全文) 年龄(数字)。 我想找到的文件像 说明:(XYZ)年龄:30 但年龄是没有在过滤器,而是得分的一部分(30岁乘数的人将为1.0,为2

    0热度

    1回答

    我有一个问题来计算相似性度量来为我的最终项目开发一个搜索引擎。我不得不使用tf idf + cosine在java中的相似性,我不知道如何计算它。 为了您的信息,我有自己的数据库,其中有811文件

    1热度

    2回答

    我计算TFIdf(术语频率,逆文档频率),我已经看到在这一步之后,有必要使用像LSI,chi-square检验等方法来减少My Matrix的维数。 我还没有任何想法如何我可以在java中实现卡方检验矩阵TFIDF的维度减少,如果有一些库来做到这一点或教程,他们解释了我可以做到这一点,告诉我请