tf-idf

    1热度

    1回答

    我有两个数据框,前者包含> 700列的预测变量,后者包含一列。前者被用作预测因子(所有值都为0和1,但由于稀疏性大多为0),第二个作为模型训练和测试的响应。第一个名称为ser,第二个为star。 我使用TF-IDF转型以下 from sklearn.feature_extraction.text import TfidfTransformer transformer = TfidfTransfo

    2热度

    1回答

    我想分析线条给出的文本,并且我希望在python中使用sckit-learn软件包的TF-IDF矢量化进行矢量化。 问题是,矢量化可以通过单词或n-gram来完成,但我希望它们可以用于行,而且我已经排除了将每行作为单个单词向量化的工作(因为以这种方式单词和它们的含义不会被考虑)。 通过文档查看我没有找到如何做到这一点,那么有没有这样的选择?

    4热度

    2回答

    我正在处理sklearn中的大量文本数据。首先,我需要矢量化文本上下文(字数),然后执行TfidfTransformer。我有下面的代码似乎并没有从CountVectorizer的输出到TfidfTransformer的输入。 TEXT = [data[i].values()[3] for i in range(len(data))] from sklearn.feature_extracti

    1热度

    1回答

    我对处理文本数据相当陌生。 我有一个约300,000个独特产品名称的数据框,我试图用k方法将相似的名称聚类在一起。我使用sklearn的tfidfvectorizer矢量化名称并将其转换为tf-idf矩阵。 接着我跑与群集尝试计算方差时为5至10。 我在卡在错误的数目的TF-IDF矩阵K用于D_kValueError: setting an array element with a sequenc

    0热度

    1回答

    我一直在试图建立一个啤酒推荐引擎,我决定简单地使用tf-idf和余弦相似度。 这里是我到目前为止的代码:` import pandas as pd import re import numpy as np from bs4 import BeautifulSoup from sklearn.feature_extraction.text import TfidfVectorizer f

    8热度

    1回答

    是否有添加到现有语料库的函数?我已经生成了我的矩阵,我期望定期添加到表格中,而无需重新计算整个Sha-bang 例如; articleList = ['here is some text blah blah','another text object', 'more foo for your bar right now'] tfidf_vectorizer = TfidfVectorizer(

    0热度

    2回答

    我正在处理一个带有10个标签的多标签文本分类问题 数据集很小,总共有+ - 7000个项目和+ -7500个标签。我正在使用python sci-kit学习,并在结果中出现了一些奇怪的事情。作为一个基线,我开始使用countvectorizer,并且实际上正在计划使用tfidf向量化工具,我认为它会更好地工作。 (0,76对0,65) 我不能包住我的头为什么这可能是这样的? 有10个类别,一个被称

    0热度

    1回答

    我在一个.txt文件中保存了几十个tweet,我想计算第一个tf-idf值的最高值换句话说,我想比较不同推文之间的单词tf-idf值,目前,我可以完成的唯一事情是在同一推文中比较单词的tf-idf值,我找不到方法比较不同推文之间的单词的tf-idf值。 请帮帮我,我一直因为这个问题而心烦很久。 /(ㄒØㄒ)/ ~~ 吹是我的代码:(只能够计算在同一鸣叫术语的TFIDF值) with open('D

    0热度

    1回答

    我尝试运行是这样的: from sklearn.feature_extraction.text import TfidfVectorizer test_text = ["q", "r"] vect = TfidfVectorizer(min_df=1, stop_words=None, lowercase=False) tfidf = vect.f

    1热度

    1回答

    我在Python 3中试图用手分析情感分析,并且使用TDF-IDF矢量化工具与单词袋模型来矢量化文档。 因此,对于任何熟悉这一点的人来说,很明显所得到的矩阵表示是稀疏的。 这是我的代码片段。首先,文件。 tweets = [('Once you get inside you will be impressed with the place.',1),('I got home to see the