scikit-learn

    3热度

    1回答

    我使用Scikit-Learn培训了一个分类器。我正在加载输入以从CSV中训练我的分类器。我的一些专栏(例如'Town')的价值是规范的(例如可以是'纽约','巴黎','斯德哥尔摩',...)。为了使用这些规范列,我正在使用Scikit-Learn的LabelBinarizer进行单热编码。 我这是怎么训练之前转换数据: import pandas as pd from sklearn.prep

    0热度

    1回答

    我使用下面的代码做主题建模上的我的文档主题的概率分布: from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer tfidf_vectorizer = TfidfVectorizer(tokenizer=tokenize, max_df=0.85, min_df=3, ngram_range=(1,5

    0热度

    1回答

    如何预处理多值特征(genre_ids)? 由于我需要为一列的每一行分配一个数值,但我可以如何有效地预处理此genre_ids? msno |city |bd |gender| song_id| song_length| genre_ids| artist_name 1 12 33 0 11 222 372 89 2 11 23 1 1 202 372|374|375

    -5热度

    1回答

    使用以下代码时,n_fold必须是2或更多。我如何改变它可以与n_folds = 1一起工作? 将其更改为1时,对于n_folds = 2以及更多,它可以工作。有些东西似乎不起作用。 对于n_folds = 1,有下列错误: Traceback (most recent call last): File "GX.py", line 266, in <module> scores

    3热度

    2回答

    说我有以下数据 import pandas as pd data = { 'Reference': [1, 2, 3, 4, 5], 'Brand': ['Volkswagen', 'Volvo', 'Volvo', 'Audi', 'Volkswagen'], 'Town': ['Berlin', 'Berlin', 'Stockholm', 'Munich',

    0热度

    1回答

    我正在学习一点ML。我知道k-最近邻居(kNN)的基本知识,但我一直认为它用于例子中的连续数据。 我现在使用的教程使用kNN对混合类型(连续特征和几个分类特征)的某些数据进行分类。我知道对于连续的人来说,通常只是使用像欧几里德距离或其他东西,但是当它们混合时它们如何处理呢? 我看到如何容易地计算一个二元变量的距离,但是如果没有“订单”的分类变量呢? 编辑:我正在关注Kaggle问题的this教程。

    3热度

    2回答

    其实,我的问题是基于: Is there a faster way to update dataframe column values based on conditions? 因此,数据应该是: import pandas as pd import io t=""" AV4MdG6Ihowv-SKBN_nB DTP,FOOD AV4Mc2vNhowv-SKBN_Rn Cash 1,FOO

    0热度

    1回答

    可能是一个非常愚蠢的问题,所以对我来说很容易,但在这里我去。 因此,这里就是我的数据看起来像...... date,locale,category,site,alexa_rank,sessions,user_logins 20170110,US,1,google,1,500,5000 20170110,EU,1,google,2,400,2000 20170111,US,2,facebook

    0热度

    1回答

    我想基于组(grp列)进行时间序列交叉验证。在下面的样本数据,温度是我的目标变量 import numpy as np import pandas as pd timeS=pd.date_range(start='1980-01-01 00:00:00', end='1980-01-01 00:00:05', freq='S') df = pd.DataFrame(dict(time=ti

    -2热度

    2回答

    我正在构建一个回归模型来预测设备的效率。有没有办法扭转这种情况,并从输出中得到模型的输入?我知道像决策树和随机森林这样的模型可以看到特征的重要性,对于线性模型,您可以看到赋予每个特征的权重,但是可以从该模型生成一些输入吗?例如。给定最佳效率,预测输入组合。