tf-idf

    2热度

    3回答

    为了对我从Lucene获得的结果执行简单的聚类算法,我必须计算Lucene中2个文档之间的余弦相似度,我还需要能够制作一个质心文档来表示每个群集的质心。 我能想到的就是用tf-idf加权构建我自己的Vector Space模型,使用TermFreqVectors和Overall Term频率来填充它。 我的问题是:这不是一个有效的方法,有没有更好的方法来做到这一点? 这感觉有点不清楚,所以如何我可

    1热度

    2回答

    我正在为网站定制搜索功能。我很好奇,如果仅使用tf-idf对我的语料库中的文档进行排名,也将有助于权衡比只有一个搜索词的文档更高的多个搜索词的文档。 示例:搜索=“波兰泉水” 理论上,如果文档包含100次“波兰”和0次“水”,上述查询将使用传统tf-idf来衡量更高的文档。或者,如果它包含10次“波兰”和10次“水”,则它会称重文件。 我知道这一切都取决于“波兰”和“水”的tf-idf值,但理论上

    3热度

    1回答

    逆文档频率在信息检索中无用的情况是什么?

    3热度

    1回答

    我需要建立矩阵,但是我找不到一种方法来计算每个单元的标准化tf-idf。 我会执行的规范化是余弦归一化,即每1/sqrt(列中的sumOfSquaredtf-idf)除tf-idf(使用DefaultSimilarity计算)。 有没有人知道一种方式来执行该操作?预先 由于 安东尼奥

    2热度

    2回答

    我想逐步集群将文本文档读取为数据流,但似乎存在问题。大多数术语加权选项基于使用TF-IDF作为特征权重的向量空间模型。但是,在我们的情况下,现有属性的IDF随着每个新数据点而改变,因此之前的聚类不再保持有效,因此不能应用任何流行的算法,例如CluStream,CURE,BIRCH,其假定固定尺寸的静态数据。 任何人都可以将我重定向到任何与此相关的现有研究或提供建议吗?谢谢 !

    0热度

    2回答

    我想分析文档中的项目,如字母,双字母,单词等,并比较它们在文档中的频率,以及它们对于大型语料库文档。 这个想法是,诸如“如果”,“和”,“该”这样的词在所有文档中都是常见的,但是在该文档中一些词比在语料库中通常更常见。 这必须是非常标准的。这叫什么?这样做明显的方式,我总是有一个问题,在我的文档中的新词,但没有在语料库评级无限重要。这是如何处理的?

    1热度

    2回答

    我使用LETOR来制作信息检索系统。他们使用TF和IDF。 我相信TF是查询相关的。但是IDF应该是,但是: “请注意,IDF是独立于文档的,因此查询下的所有文档都具有相同的IDF值 。” 但这没有意义,因为IDF是功能列表的一部分。每个文档的IDF将如何计算?

    14热度

    3回答

    我正在努力解决如何改进solr搜索结果的评分。我的应用程序需要从solr结果中取得分数,并根据查询结果的好坏来显示一些“星号”。 5星=几乎/精确到0星意味着与搜索不匹配,例如,只有一个元素命中。不过,我得到的分数从1.4到0.8660254都返回给我5星级的结果。我需要做的是以某种方式将这些结果转换为一个百分比,以便我可以用正确数量的星标记这些结果。 ,我跑这给了我1.4分的查询是: euall

    3热度

    2回答

    我一直在使用R的文本挖掘软件包,它真的是一个很棒的工具。我还没有找到检索支持或可能有我缺少的功能。 如何使用R的文本挖掘软件包实现简单的VSM模型?

    0热度

    1回答

    我已经设置了在非常有限的时间内在PHP中创建基本文本文件搜索引擎的挑战,它几乎没有以前的编程知识相当的任务! 这是我们到目前为止,它设法返回文档((s) - 如果不止一个具有相同的数量)与一个单词的最高出现次数。 问题是我们所做的方式没有(至少不容易)让我们计算TF-IDF分数。 IDF已完成,但我们需要通过获取返回文档中的单词总数来计算TF,这就是我们遇到的问题。另一个问题是,它只返回最高的文件