tf-idf

2热度

3回答

为了对我从Lucene获得的结果执行简单的聚类算法，我必须计算Lucene中2个文档之间的余弦相似度，我还需要能够制作一个质心文档来表示每个群集的质心。我能想到的就是用tf-idf加权构建我自己的Vector Space模型，使用TermFreqVectors和Overall Term频率来填充它。我的问题是：这不是一个有效的方法，有没有更好的方法来做到这一点？这感觉有点不清楚，所以如何我可

1热度

2回答

tf-idf：使用它是否有助于衡量共享条件高于不是文档的文档？

我正在为网站定制搜索功能。我很好奇，如果仅使用tf-idf对我的语料库中的文档进行排名，也将有助于权衡比只有一个搜索词的文档更高的多个搜索词的文档。示例：搜索=“波兰泉水” 理论上，如果文档包含100次“波兰”和0次“水”，上述查询将使用传统tf-idf来衡量更高的文档。或者，如果它包含10次“波兰”和10次“水”，则它会称重文件。我知道这一切都取决于“波兰”和“水”的tf-idf值，但理论上

3热度

1回答

不使用IDF的地方？

逆文档频率在信息检索中无用的情况是什么？

3热度

1回答

Lucene。如何建立一个term-doc矩阵

我需要建立矩阵，但是我找不到一种方法来计算每个单元的标准化tf-idf。我会执行的规范化是余弦归一化，即每1/sqrt（列中的sumOfSquaredtf-idf）除tf-idf（使用DefaultSimilarity计算）。有没有人知道一种方式来执行该操作？预先由于安东尼奥

2热度

2回答

如何聚类不断演进的数据流

我想逐步集群将文本文档读取为数据流，但似乎存在问题。大多数术语加权选项基于使用TF-IDF作为特征权重的向量空间模型。但是，在我们的情况下，现有属性的IDF随着每个新数据点而改变，因此之前的聚类不再保持有效，因此不能应用任何流行的算法，例如CluStream，CURE，BIRCH，其假定固定尺寸的静态数据。任何人都可以将我重定向到任何与此相关的现有研究或提供建议吗？谢谢！

0热度

2回答

将文档中的文本频率与语料库中的频率进行比较

我想分析文档中的项目，如字母，双字母，单词等，并比较它们在文档中的频率，以及它们对于大型语料库文档。这个想法是，诸如“如果”，“和”，“该”这样的词在所有文档中都是常见的，但是在该文档中一些词比在语料库中通常更常见。这必须是非常标准的。这叫什么？这样做明显的方式，我总是有一个问题，在我的文档中的新词，但没有在语料库评级无限重要。这是如何处理的？

1热度

2回答

对于多个文档，IDF如何不同？

我使用LETOR来制作信息检索系统。他们使用TF和IDF。我相信TF是查询相关的。但是IDF应该是，但是： “请注意，IDF是独立于文档的，因此查询下的所有文档都具有相同的IDF值。” 但这没有意义，因为IDF是功能列表的一部分。每个文档的IDF将如何计算？

14热度

3回答

如何规范solr/lucene分数？

我正在努力解决如何改进solr搜索结果的评分。我的应用程序需要从solr结果中取得分数，并根据查询结果的好坏来显示一些“星号”。 5星=几乎/精确到0星意味着与搜索不匹配，例如，只有一个元素命中。不过，我得到的分数从1.4到0.8660254都返回给我5星级的结果。我需要做的是以某种方式将这些结果转换为一个百分比，以便我可以用正确数量的星标记这些结果。，我跑这给了我1.4分的查询是： euall

3热度

2回答

使用R的文本检索

我一直在使用R的文本挖掘软件包，它真的是一个很棒的工具。我还没有找到检索支持或可能有我缺少的功能。如何使用R的文本挖掘软件包实现简单的VSM模型？

0热度

1回答

如何返回结果文档中的字数来计算TF

我已经设置了在非常有限的时间内在PHP中创建基本文本文件搜索引擎的挑战，它几乎没有以前的编程知识相当的任务！这是我们到目前为止，它设法返回文档（（s） - 如果不止一个具有相同的数量）与一个单词的最高出现次数。问题是我们所做的方式没有（至少不容易）让我们计算TF-IDF分数。 IDF已完成，但我们需要通过获取返回文档中的单词总数来计算TF，这就是我们遇到的问题。另一个问题是，它只返回最高的文件