tf-idf

    7热度

    1回答

    我有这个代码用于计算与tf-idf的文本相似度。 from sklearn.feature_extraction.text import TfidfVectorizer documents = [doc1,doc2] tfidf = TfidfVectorizer().fit_transform(documents) pairwise_similarity = tfidf * tfidf.

    1热度

    1回答

    我正在使用Java中的Hadoop(无猪或配置单元)编写TF-IDF用于学习目的。我将分三个步骤进行分类:字数统计,每个文档的字数统计以及每个单词的docCount统计。 我相信主链的工作是正确的,但是我在开始时有一个问题:在我的第一轮中,如何在映射器中获取文档ID?我有以下多个输入: Path doc1 = new Path(System.getProperty("user.dir") + "/

    0热度

    1回答

    我使用最常见的答案(Similarity between two text documents)中给出的代码来计算文档之间的TF-IDF。然而,我观察到,当我运行代码时没有指定min_df(1,在代码中)的自定义值,那么如果两个文档完全不同(使得它们中没有共同词),而不是接收TF- 0 IDF值,我得到以下错误: ValueError: empty vocabulary; training set

    1热度

    1回答

    我想了解map-reduce概念,并使用mincemeat.py来实现小程序,这是一个开源的python库。 我已经使用mapper和reducer获得了一包单词的简单字数。但是,我想实现为文档中的所有单词找到tf-idf分数。为了实现这个目标,我想第一步是获得{[word,docID]->count}类型的字典。为此我写了以下代码 def mapfn(k, v): for line i

    0热度

    1回答

    我正在尝试构建一个java应用程序,它在一组文本文档上训练SVM模型并根据模型对新文档进行分类。我已经浏览了很多可以做到这一点的java包,并发现libsvm实现是最好的。 1)我的训练输入基本上是一个文本文件,它具有文档文本和正确的标签。我知道libsvm软件包目前仅适用于数字数据,这意味着我必须将我的文本文件和特征(词)转换为数字形式。 TF-IDF是做这件事的好方法吗?有没有一个可以生成TF

    4热度

    1回答

    我试图确定一组政府文件中的重要条款。生成术语频率是没有问题的。 对于文档频率,我希望使用Peter Norvig发布的handy Python scripts and accompanying data在他的“美丽数据”一章中,其中包括来自Web的庞大数据集中的unigrams频率。 我的TF-IDF的理解,但问题在于,“文档频率”是指含有一个词的文档数量,总词是这个词,而不是数量这就是我们从弱势

    4热度

    1回答

    我设法评估了给定语料库的tf-idf function。我如何找到每个文档的停用词和最佳单词?我知道给定的单词和文档的低tf-idf意味着选择该文档不是一个好词。

    1热度

    1回答

    我正在使用朴素贝叶斯分类器。在此之后tutorial。 对于训练有素的数据,我使用308个问题并将它们分类为26个手动标记的类别。 发送数据之前,我正在执行NLP。在NLP中,我正在执行(标点符号删除,标记化,停用词删除和词干) 此过滤的数据用作mahout的输入。 使用mahout NBC的我训练这些数据并获取模型文件。现在当我运行 mahout testnb 命令我得到正确的分类实例为96

    1热度

    1回答

    我想在WEKA GUI中使用带TF-IDF的KNN算法。首先,我在默认条件下运行算法。其次我在StringToWordVector过滤器中选择“IDFTransform”和“TFTransform”为“true”并运行。 还有没有什么区别有两个结果。 结果1: Correctly Classified Instances 1346 91.3781 % 结果2: Correctly Cl

    0热度

    1回答

    在gensim库中,有一个MmReader类将matrix market format文件转换为python对象。有时需要transpose the matrix,因此转置参数在MmReader中引入。 然而,我感到困惑,为什么它,在线路525-526和https://github.com/piskvorky/gensim/blob/develop/gensim/matutils.py567-56