tf-idf

1热度

1回答

我有两个数据框，前者包含> 700列的预测变量，后者包含一列。前者被用作预测因子（所有值都为0和1，但由于稀疏性大多为0），第二个作为模型训练和测试的响应。第一个名称为ser，第二个为star。我使用TF-IDF转型以下 from sklearn.feature_extraction.text import TfidfTransformer transformer = TfidfTransfo

2热度

1回答

Tf-Idf矢量分析器从线条而不是字词分析矢量

我想分析线条给出的文本，并且我希望在python中使用sckit-learn软件包的TF-IDF矢量化进行矢量化。问题是，矢量化可以通过单词或n-gram来完成，但我希望它们可以用于行，而且我已经排除了将每行作为单个单词向量化的工作（因为以这种方式单词和它们的含义不会被考虑）。通过文档查看我没有找到如何做到这一点，那么有没有这样的选择？

4热度

2回答

从CountVectorizer转换到Sklearn中的TfidfTransformer

我正在处理sklearn中的大量文本数据。首先，我需要矢量化文本上下文（字数），然后执行TfidfTransformer。我有下面的代码似乎并没有从CountVectorizer的输出到TfidfTransformer的输入。 TEXT = [data[i].values()[3] for i in range(len(data))] from sklearn.feature_extracti

1热度

1回答

如何计算kmeans在tfidf矩阵中解释的方差？

我对处理文本数据相当陌生。我有一个约300,000个独特产品名称的数据框，我试图用k方法将相似的名称聚类在一起。我使用sklearn的tfidfvectorizer矢量化名称并将其转换为tf-idf矩阵。接着我跑与群集尝试计算方差时为5至10。我在卡在错误的数目的TF-IDF矩阵K用于D_kValueError: setting an array element with a sequenc

0热度

1回答

如何使用tf-idf和余弦相似度建立推荐系统？

我一直在试图建立一个啤酒推荐引擎，我决定简单地使用tf-idf和余弦相似度。这里是我到目前为止的代码：` import pandas as pd import re import numpy as np from bs4 import BeautifulSoup from sklearn.feature_extraction.text import TfidfVectorizer f

8热度

1回答

向Sklearn TFIDIF向量添加新文本（Python）

是否有添加到现有语料库的函数？我已经生成了我的矩阵，我期望定期添加到表格中，而无需重新计算整个Sha-bang 例如; articleList = ['here is some text blah blah','another text object', 'more foo for your bar right now'] tfidf_vectorizer = TfidfVectorizer(

0热度

2回答

TF-IDF矢量器不能比countvectorizer工作得更好（sci-kit学习

我正在处理一个带有10个标签的多标签文本分类问题数据集很小，总共有+ - 7000个项目和+ -7500个标签。我正在使用python sci-kit学习，并在结果中出现了一些奇怪的事情。作为一个基线，我开始使用countvectorizer，并且实际上正在计划使用tfidf向量化工具，我认为它会更好地工作。（0,76对0,65）我不能包住我的头为什么这可能是这样的？有10个类别，一个被称

0热度

1回答

蟒蛇 - 如何计算不同tweeets中前100个单词的最高tf-idf值

我在一个.txt文件中保存了几十个tweet，我想计算第一个tf-idf值的最高值换句话说，我想比较不同推文之间的单词tf-idf值，目前，我可以完成的唯一事情是在同一推文中比较单词的tf-idf值，我找不到方法比较不同推文之间的单词的tf-idf值。请帮帮我，我一直因为这个问题而心烦很久。 /（ㄒØㄒ）/ ~~ 吹是我的代码：（只能够计算在同一鸣叫术语的TFIDF值） with open('D

0热度

1回答

python scikit-learn TfidfVectorizer：为什么ValueError输入时是2个单字符字符串？

我尝试运行是这样的： from sklearn.feature_extraction.text import TfidfVectorizer test_text = ["q", "r"] vect = TfidfVectorizer(min_df=1, stop_words=None, lowercase=False) tfidf = vect.f

1热度

1回答

Python中的文档矢量化表示法

我在Python 3中试图用手分析情感分析，并且使用TDF-IDF矢量化工具与单词袋模型来矢量化文档。因此，对于任何熟悉这一点的人来说，很明显所得到的矩阵表示是稀疏的。这是我的代码片段。首先，文件。 tweets = [('Once you get inside you will be impressed with the place.',1),('I got home to see the