tf-idf

    4热度

    2回答

    据我所知,IDF被用来计算有多少文件有这个词(只是这个想法)。由于您事先拥有所有文档,因此可以在训练集中计算IDF(以及TF)。但是如果我事先没有测试集并且以顺序的方式获取测试文档(例如来自网络爬行器),那么如何在测试文档时计算文档中文字的IDF ?

    2热度

    1回答

    我有一个查询和一组文档。我需要根据与tf-idf的余弦相似性对这些文档进行排序。有人可以告诉我,我可以从Lucene得到什么样的支持来计算它吗?我可以直接从Lucene中计算出什么参数(我可以通过lucene中的某种方法直接获得tf,idf?)以及如何计算与Lucene的余弦相似度(如果我传递查询的两个向量,是否有任何函数直接返回余弦相似度,文件?) Thanx提前

    3热度

    2回答

    从我从网上找到的文档中找出用于确定语料库中词语的词频和反文档频率权重的表达式为 tf-idf(wt)= tf * log( | N |/d); 我正在通过gensim中提到的tf-idf的实现。 文档中给出的例子是 >>> doc_bow = [(0, 1), (1, 1)] >>> print tfidf[doc_bow] # step 2 -- use the model to transf

    2热度

    1回答

    我有一组文件和一个查询文档。我的目的是通过与每个文档的查询文档进行比较来返回最相似的文档。要首先使用余弦相似性,我必须将文档字符串映射到vectors.Also我已经创建了一个tf-idf函数计算每个文档。 为了得到字符串的索引我有一个这样的函数; def getvectorKeywordIndex(self, documentList): """ create the keyword

    2热度

    4回答

    我基本上创建了一个搜索引擎,我想实现tf * idf来根据搜索查询对我的xml文档进行排名。我如何实现它?我如何开始它?任何帮助赞赏。

    2热度

    1回答

    基于tf-idf矩阵计算皮尔逊相关系数以查看哪些术语与其他术语结合发生是否有意义?它在数学上是否正确? 我的输出是一个相关矩阵,每个单元的每个单元都有相关系数。 -------字词1字词2 TERM3 词条2 词条2 词条2

    0热度

    1回答

    我做了一个工作算法,但运行时间非常可怕。是的,我从一开始就知道它会很糟糕,但不是那么多。只有200000条记录,该程序运行超过一个小时。 基本上就是我做的是: for each searchfield in search fields for each sample in samples do a q-gram matching if there are match

    0热度

    2回答

    我有一组文档,这些文档被分为Good和Bad类别。我希望能够预测哪些类别的新文件将属于哪个类别。我所看到的一件事是找到最佳定义每个类别的术语,并在新文档中查找这些术语。 有一段时间,当我了解TF-IDF时,我在使用Lucene术语向量进行Mahout聚类。在我看来,我所寻找的是类似的东西,我可以从一个类别中找到TermFrequency,然后在另一个类别中应用这些术语的InverseDocumen

    -1热度

    1回答

    我想比较TF-IDF,Vector模型和TF-IDF算法的一些优化。 为此,我需要一个数据集(至少100个英文文档)。我无法找到一个。有什么建议么 ?

    2热度

    3回答

    我想用一个文件(作为文本文件)使用mahout做计算,执行TFIDF后面this guide。 我已成功创建字典和矢量权重,现在正在尝试访问输出。在该指南中,它表示“例如可以轻松地将生成的词典文件的内容加载到具有令牌索引作为键和令牌作为值的映射中。” 我不知道如何去把这个文件加载到地图上,他建议,有没有人知道它是如何完成的? 我从一个文本文件目录创建了我的向量,运行“./mahout seq2sp