tf-idf

7热度

1回答

我有这个代码用于计算与tf-idf的文本相似度。 from sklearn.feature_extraction.text import TfidfVectorizer documents = [doc1,doc2] tfidf = TfidfVectorizer().fit_transform(documents) pairwise_similarity = tfidf * tfidf.

1热度

1回答

如何在具有MultipleInputs的Mapper中获取文档ID

我正在使用Java中的Hadoop（无猪或配置单元）编写TF-IDF用于学习目的。我将分三个步骤进行分类：字数统计，每个文档的字数统计以及每个单词的docCount统计。我相信主链的工作是正确的，但是我在开始时有一个问题：在我的第一轮中，如何在映射器中获取文档ID？我有以下多个输入： Path doc1 = new Path(System.getProperty("user.dir") + "/

0热度

1回答

Python Scikit-learn：在TF-IDF中使用空词汇表

我使用最常见的答案（Similarity between two text documents）中给出的代码来计算文档之间的TF-IDF。然而，我观察到，当我运行代码时没有指定min_df（1，在代码中）的自定义值，那么如果两个文档完全不同（使得它们中没有共同词），而不是接收TF- 0 IDF值，我得到以下错误： ValueError: empty vocabulary; training set

1热度

1回答

使用mincemeat.py“产生”字典的键列表使用mincemeat.py

我想了解map-reduce概念，并使用mincemeat.py来实现小程序，这是一个开源的python库。我已经使用mapper和reducer获得了一包单词的简单字数。但是，我想实现为文档中的所有单词找到tf-idf分数。为了实现这个目标，我想第一步是获得{[word,docID]->count}类型的字典。为此我写了以下代码 def mapfn(k, v): for line i

0热度

1回答

用于java的文本分类使用LIBSVN库的SVM

我正在尝试构建一个java应用程序，它在一组文本文档上训练SVM模型并根据模型对新文档进行分类。我已经浏览了很多可以做到这一点的java包，并发现libsvm实现是最好的。 1）我的训练输入基本上是一个文本文件，它具有文档文本和正确的标签。我知道libsvm软件包目前仅适用于数字数据，这意味着我必须将我的文本文件和特征（词）转换为数字形式。 TF-IDF是做这件事的好方法吗？有没有一个可以生成TF

4热度

1回答

tf-idf使用来自Google的单数频率数据

我试图确定一组政府文件中的重要条款。生成术语频率是没有问题的。对于文档频率，我希望使用Peter Norvig发布的handy Python scripts and accompanying data在他的“美丽数据”一章中，其中包括来自Web的庞大数据集中的unigrams频率。我的TF-IDF的理解，但问题在于，“文档频率”是指含有一个词的文档数量，总词是这个词，而不是数量这就是我们从弱势

4热度

1回答

如何使用tf-idf选择停用词？（非英文语料库）

我设法评估了给定语料库的tf-idf function。我如何找到每个文档的停用词和最佳单词？我知道给定的单词和文档的低tf-idf意味着选择该文档不是一个好词。

1热度

1回答

如何提高朴素贝叶斯分类器的准确性？

我正在使用朴素贝叶斯分类器。在此之后tutorial。对于训练有素的数据，我使用308个问题并将它们分类为26个手动标记的类别。发送数据之前，我正在执行NLP。在NLP中，我正在执行（标点符号删除，标记化，停用词删除和词干）此过滤的数据用作mahout的输入。使用mahout NBC的我训练这些数据并获取模型文件。现在当我运行 mahout testnb 命令我得到正确的分类实例为96

1热度

1回答

Weka GUI - TF-IDF未计算 - 请帮助我的学术工作

我想在WEKA GUI中使用带TF-IDF的KNN算法。首先，我在默认条件下运行算法。其次我在StringToWordVector过滤器中选择“IDFTransform”和“TFTransform”为“true”并运行。还有没有什么区别有两个结果。结果1： Correctly Classified Instances 1346 91.3781 % 结果2： Correctly Cl

0热度

1回答

矩阵市场格式中的转置参数gensim - python

在gensim库中，有一个MmReader类将matrix market format文件转换为python对象。有时需要transpose the matrix，因此转置参数在MmReader中引入。然而，我感到困惑，为什么它，在线路525-526和https://github.com/piskvorky/gensim/blob/develop/gensim/matutils.py567-56