tf-idf

    0热度

    1回答

    我发现了一种简单的方法来搜索Solr中的关系数据,但我不确定是否应该进一步优化它。 让我举一个例子:说,我们有一个系统,用户在个人收藏中组织书籍。一本书有一个流派,例如“戏剧”,“惊悚片”,“恐怖片”等。用户收藏可以并且在大多数情况下包含来自不同流派的书籍。 如果我想创建一个搜索,用户可以按照流派搜索集合,我想返回包含与流派查询最相关的书籍的结果。我所做的只是一个简单的窍门 - 我为集合添加了一个

    27热度

    1回答

    我试图让使用Sklearn的TfidfVectorizer对象的单个文件的TF-IDF向量。我创建基于一些培训文档的词汇量和使用fit_transform训练TfidfVectorizer。然后,我想为任何给定的测试文档找到tf-idf向量。 from sklearn.feature_extraction.text import TfidfVectorizer self.vocabulary

    16热度

    3回答

    python中提供的标准tf-idf实现/ api是什么?我遇到了nltk中的那个。我想知道提供此功能的其他库。

    0热度

    1回答

    我喜欢为非英语语言创建停用词列表。哪些指标更适合创建停用词列表:只有整个文档集合或tf-idf指标的词频?

    0热度

    1回答

    我正在处理一个文本分类问题,其中最常用的100个单词被选为特征。我相信如果我使用更好的特征选择方法,结果可以得到改善?有任何想法吗? TF-IDF可以工作吗?如果是,那么如何?

    1热度

    1回答

    我想在python-scikit库中可视化TfidfVectorizer outut列中使用的“Words/grams”。有没有办法? 我试图将csr转换为数组,但看不到克组成的头。

    2热度

    2回答

    我想用scikit-learn(或者nltk或其他建议打开)尝试tfidf。我拥有的数据是我们在mongoDB中存储的大量讨论论坛帖子(~65k)。每个帖子都有帖子标题,帖子的日期和时间,帖子帖子的文本(或者re:如果是对现有帖子的回复),用户名,消息ID以及它是子帖还是父帖(在一个线程中,在那里你有原始的帖子,然后回复这个op,或嵌套的回复,树)。 我认为每个帖子都是一个单独的文档,并且与20个

    4热度

    3回答

    我正在尝试将一些文档分为两类,其中我使用TfidfVectorizer作为特征提取技术。 输入数据由包含大约十几个字段的浮点数据,标签和文档正文的文本blob的数据行组成。为了使用body,我应用了TfidfVectorizer并得到了一个稀疏矩阵(我可以通过toarray()将其转换为数组来检查)。这个矩阵通常是非常大的,成千上万的尺寸 - 我们称之为F,它的大小为1000 x 15000. 要

    1热度

    2回答

    我想使用矢量空间模型在SVM Light中构建SVM分类器。我有1000个文档和一个术语词典,我将用它来向量化每个文档。在1000个文档中,600个将用于我的训练集,而其余400个将被均分(每个200个)用于我的交叉验证集和我的测试集。 现在假设我要训练我的SVM分类器,使用我的训练集600(使用tf-idf向量化)来生成分类模型。 当我将模型应用于交叉验证集时,是否会使用相同的idf(因为模型对

    6热度

    1回答

    我正试图计算文档中每个术语的tf-idf值。因此,我遍历文档中的术语,并希望查找整个语料库中该术语的频率以及术语出现的文档数量。以下是我的代码: //@param index path to index directory //@param docNbr the document number in the index public void readingIndex(String index