scikit-learn

    1热度

    1回答

    我有一个特征阵列,其中包含不同类型的值: >>> features = train_df.values >>> [x for x in features] [True, array([2, 0, 0, ..., 0, 0, 0]), False, False, 17, 1, 10, array([0, 0, 0, ..., 0, 0, 0])] 我想产生包含所有上述特征的串

    -1热度

    1回答

    我有一个数据集,我想为它建立一个分类模型。鉴于scikit-learn提供了混淆矩阵实现confusion_matrix(test_y, pred_r),我想用它来计算我的模型的准确性,而不是直接使用.predict。为此,我应该只查找false positive或true positive或两者的组合? 谢谢

    -1热度

    1回答

    我是机器学习的新手请原谅我,如果我愚蠢。 我有一个包含22个属性和30000个数据点的traindata.csv文件。 我必须训练我的模型(不是特定的算法),并预测testdata.csv文件中的20000个数据点,我必须使用我的训练模型进行预测。 在traindata.csv中,'0'和'1'类标签的比例为5:1。 如果我用这整列火车数据训练我的模型,我的模型显示了一些偏向于预测0的比例。 我以

    -1热度

    1回答

    在试图了解决策树如何scikit表现为onehot编码数据我有以下几点: X = [[1,0,1] , [1,1,1]] Y = [1,2] clf = tree.DecisionTreeClassifier(criterion='entropy') clf = clf.fit(X, Y) print(clf.predict([1,0,1])) print(clf.predict([

    0热度

    1回答

    比方说,我有一个熊猫的数据帧,我想正常化只有某些属性,但不能使用此功能的帮助下,整个数据帧: preprocessing.normalize ,我想就地这些标准化列到我的数据框。但我不能因为它有不同的格式(numpy数组)。 我已经看到了怎么办正常化其他方式,例如我不喜欢这样的: s0 = X.iloc[:,13:15] X.iloc[:,13:15] = (s0 - s0.mean())/

    2热度

    3回答

    经常利益相关者不希望有一个很好的预测黑箱模型;他们希望了解有关功能的深入了解,以便他们能够向其他人解释。 当我们检查xgboost或sklearn渐变增强模型的特征重要性时,我们可以确定特征的重要性......但我们不明白为什么这些特征很重要,是吗? 有没有办法解释不仅是什么功能重要,而且为什么它们很重要? 我被告知使用shap但即使运行一些样板实例抛出错误,所以我在寻找替代品(或者甚至只是一个程

    0热度

    1回答

    我想将我的图像分成更小的窗口,这些窗口将发送到神经网络进行训练(例如面部检测器训练)。我在Tensorflow中找到tf.extract_image_patches方法,这看起来正是我需要的。 This question解释它的功能。 的例子有示出的给定(1x10x10x1)(数字1通过100按顺序)输入ksize是(1, 3, 3, 1)(和strides(1, 5, 5, 1))。输出是这样的

    0热度

    1回答

    使用Spark_sklearn执行嵌套交叉验证GridSearchCV作为内部cv和sklearn cross_validate/cross_val_score作为外部cv结果“看起来您试图从广播变量引用SparkContext ,行动或转型“的错误。 inner_cv = StratifiedKFold(n_splits=2, shuffle=True, random_state=42) ou

    0热度

    1回答

    我正在创建带标记类的神经网络,它们是二进制值列表,并且有1167个类。我想根据预测概率,以利用MLP.predict_proba()到输出的前5类,但输出的是NP阵列的概率为每个类只由索引值标记,即 enter image description here 我想找出哪些类与这些概率相关联,并且预测函数能够正确输出代表它所预测类的二进制列表。无论如何,我可以手动将这些类标记为这些唯一的二进制列表吗?

    0热度

    1回答

    在下面的代码中,数据是一个句子列表,而“y”列(data.metagroup)是一个类列表 - 一个直接的分类问题。 问题: 我想用partial_fit与MultinomialNB分类。 基础上的文档,我传递一个稀疏向量X(称为xtrain),为y简单的串联(称为ytrain),以及用于np.array其classes是所有可能的类的列表。 目标是最终使用xtrain和ytrain的子集,但我必