tf-idf

1热度

1回答

我已经应用了pyspark tf-idf函数并获得以下结果。 | features | |----------| | (35,[7,9,11,12,19,26,33],[1.2039728043259361,1.2039728043259361,1.2039728043259361,1.6094379124341003,1.6094379124341003,1.6094379124341003

0热度

1回答

Python中，匹配列表元素与包含元组的列表的字典

我已经如下所示包含日期和术语频率的序列的词典： { 'Wed Aug 09': [('夏', 49), ('日本', 48), ('海', 39), ('', 33), ('日', 28), ('写真', 25), ('まし', 24), ('', 24), ('️', 23), (' ソフトクリーム', 22)], 'Thu Aug 10': [('夏', 1010), ('

0热度

2回答

类型错误：列表索引必须是整数或切片，使用嵌套的字典

当我创建的本地使用的嵌套字典存储文本文件的倒排索引不海峡。倒排索引的抽象结构在下面（值是整数）。在键'0'的任何字值中，键'1'的idf和值是tf。 inverted_index={'word1':{'0':idf_value, '1': 2 , 'filename1': frequency_value, 'filename2': frequency_value},'word2':{'0':idf

0热度

1回答

余弦相似度得分scikit学会了两种不同的量化技术是相同的

我最近在分配任务的地方是使用20_newgroups数据集，并使用3种不同的矢量化技术（文字包，TF，TFIDF）来表示文件的工作矢量格式，然后尝试分析20_Newsgroups数据集中每个类之间的平均余弦相似度之间的差异。所以这就是我在Python中想要做的。我正在读取数据并将其传递给sklearn.feature_extraction.text.CountVectorizer Bag's Wo

0热度

1回答

计算Tfidf矩阵和预测向量之间的相似性会导致内存溢出

我使用以下代码在〜20,000,000个文档上生成了tf-idf模型，该模型效果很好。问题是，当我尝试使用计算时的相似性指标linear_kernel内存使用情况炸毁： from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.metrics.pairwise import linear_kernel t

2热度

2回答

gensim.corpora.Dictionary是否有保存频率的频率？

gensim.corpora.Dictionary是否保存了术语频率？从gensim.corpora.Dictionary，它可能得到的话文档频率（即怎么一个特定的词出现在许多文件）： from nltk.corpus import brown from gensim.corpora import Dictionary documents = brown.sents() brown_di

0热度

1回答

MultinomialNB（）为所有测试文档预测相同的类别

我有大量文档分组到大约350个类中。我试图建立一个TF-IDF多项模型来预测新文档的类。一切似乎都工作正常，除了测试预测只有一个值（即使我在数千个文档上运行测试）。我错过了什么？下面是相关代码： stop_words = set(stopwords.words('english')) tokenizer = RegexpTokenizer(r'\w+') stemmer = Snowball

0热度

1回答

Python：比较两个不同尺寸的tfidf矩阵内的项目

我想在包含许多行的文件上使用TfidfVectorizer（），每个文本都包含一个短语。然后我想用一小部分短语做一个测试文件，做TfidfVectorizer（），然后取原始文件和测试文件之间的余弦相似度，这样对于测试文件中的给定短语，我可以检索出前N个匹配原始文件。这里是我的尝试： corpus = tuple(open("original.txt").read().split('\n'))

1热度

1回答

TF-IDF使用余弦相似度几乎类似的句子

的文档相似性，我使用TF-IDF与余弦相似度计算描述输入字符串： 3/4x1/2x3/4 blk mi tee 下面是句子其中我需要找到类似的输入字符串句子 smith-cooper® 33rt1 reducing pipe tee 3/4 x 1/2 x 3/4 in npt 150 lb malleable iron black smith-cooper®

0热度

1回答

变换RDD到有效的输入，使用包含与下面的代码CSV文件的目录的火花mllib算法k均值

我计算TF和IDF： import argparse from os import system ### args parsing parser = argparse.ArgumentParser(description='runs TF/IDF on a directory of text docs') parser.add_argument("-i","--input", help