tf-idf

0热度

1回答

我发现了一种简单的方法来搜索Solr中的关系数据，但我不确定是否应该进一步优化它。让我举一个例子：说，我们有一个系统，用户在个人收藏中组织书籍。一本书有一个流派，例如“戏剧”，“惊悚片”，“恐怖片”等。用户收藏可以并且在大多数情况下包含来自不同流派的书籍。如果我想创建一个搜索，用户可以按照流派搜索集合，我想返回包含与流派查询最相关的书籍的结果。我所做的只是一个简单的窍门 - 我为集合添加了一个

27热度

1回答

使用Sklearn的TfidfVectorizer变换

我试图让使用Sklearn的TfidfVectorizer对象的单个文件的TF-IDF向量。我创建基于一些培训文档的词汇量和使用fit_transform训练TfidfVectorizer。然后，我想为任何给定的测试文档找到tf-idf向量。 from sklearn.feature_extraction.text import TfidfVectorizer self.vocabulary

16热度

3回答

python中的TF-IDF实现

python中提供的标准tf-idf实现/ api是什么？我遇到了nltk中的那个。我想知道提供此功能的其他库。

0热度

1回答

如何创建我自己的停用词列表？

我喜欢为非英语语言创建停用词列表。哪些指标更适合创建停用词列表：只有整个文档集合或tf-idf指标的词频？

0热度

1回答

用于文本分类的特征选择

我正在处理一个文本分类问题，其中最常用的100个单词被选为特征。我相信如果我使用更好的特征选择方法，结果可以得到改善？有任何想法吗？ TF-IDF可以工作吗？如果是，那么如何？

1热度

1回答

有没有办法看到TfidfVectoririzer输出的列'克'？

我想在python-scikit库中可视化TfidfVectorizer outut列中使用的“Words/grams”。有没有办法？我试图将csr转换为数组，但看不到克组成的头。

2热度

2回答

tf-idf文本文件的大小（65k）

我想用scikit-learn（或者nltk或其他建议打开）尝试tfidf。我拥有的数据是我们在mongoDB中存储的大量讨论论坛帖子（~65k）。每个帖子都有帖子标题，帖子的日期和时间，帖子帖子的文本（或者re：如果是对现有帖子的回复），用户名，消息ID以及它是子帖还是父帖（在一个线程中，在那里你有原始的帖子，然后回复这个op，或嵌套的回复，树）。我认为每个帖子都是一个单独的文档，并且与20个

4热度

3回答

如何在实践中使用TfidfVectorizer和元数据进行分类？

我正在尝试将一些文档分为两类，其中我使用TfidfVectorizer作为特征提取技术。输入数据由包含大约十几个字段的浮点数据，标签和文档正文的文本blob的数据行组成。为了使用body，我应用了TfidfVectorizer并得到了一个稀疏矩阵（我可以通过toarray（）将其转换为数组来检查）。这个矩阵通常是非常大的，成千上万的尺寸 - 我们称之为F，它的大小为1000 x 15000. 要

1热度

2回答

我是否使用训练集中的相同idf来执行交叉验证？

我想使用矢量空间模型在SVM Light中构建SVM分类器。我有1000个文档和一个术语词典，我将用它来向量化每个文档。在1000个文档中，600个将用于我的训练集，而其余400个将被均分（每个200个）用于我的交叉验证集和我的测试集。现在假设我要训练我的SVM分类器，使用我的训练集600（使用tf-idf向量化）来生成分类模型。当我将模型应用于交叉验证集时，是否会使用相同的idf（因为模型对

6热度

1回答

Lucene 4.4。如何获得所有指数的术语频率？

我正试图计算文档中每个术语的tf-idf值。因此，我遍历文档中的术语，并希望查找整个语料库中该术语的频率以及术语出现的文档数量。以下是我的代码： //@param index path to index directory //@param docNbr the document number in the index public void readingIndex(String index