scikit-learn

1热度

1回答

我有一个特征阵列，其中包含不同类型的值： >>> features = train_df.values >>> [x for x in features] [True, array([2, 0, 0, ..., 0, 0, 0]), False, False, 17, 1, 10, array([0, 0, 0, ..., 0, 0, 0])] 我想产生包含所有上述特征的串

-1热度

1回答

使用混淆矩阵来找到模型精度而不是内置它的预测方法

我有一个数据集，我想为它建立一个分类模型。鉴于scikit-learn提供了混淆矩阵实现confusion_matrix(test_y, pred_r)，我想用它来计算我的模型的准确性，而不是直接使用.predict。为此，我应该只查找false positive或true positive或两者的组合？谢谢

-1热度

1回答

在机器学习（二元分类）中处理我的数据的最佳技巧？

我是机器学习的新手请原谅我，如果我愚蠢。我有一个包含22个属性和30000个数据点的traindata.csv文件。我必须训练我的模型（不是特定的算法），并预测testdata.csv文件中的20000个数据点，我必须使用我的训练模型进行预测。在traindata.csv中，'0'和'1'类标签的比例为5：1。如果我用这整列火车数据训练我的模型，我的模型显示了一些偏向于预测0的比例。我以

-1热度

1回答

决策树直觉一个热编码数据

在试图了解决策树如何scikit表现为onehot编码数据我有以下几点： X = [[1,0,1] , [1,1,1]] Y = [1,2] clf = tree.DecisionTreeClassifier(criterion='entropy') clf = clf.fit(X, Y) print(clf.predict([1,0,1])) print(clf.predict([

0热度

1回答

规范化sklearn

比方说，我有一个熊猫的数据帧，我想正常化只有某些属性，但不能使用此功能的帮助下，整个数据帧： preprocessing.normalize ，我想就地这些标准化列到我的数据框。但我不能因为它有不同的格式（numpy数组）。我已经看到了怎么办正常化其他方式，例如我不喜欢这样的： s0 = X.iloc[:,13:15] X.iloc[:,13:15] = (s0 - s0.mean())/

2热度

3回答

确定为什么要素在决策树模型中很重要

经常利益相关者不希望有一个很好的预测黑箱模型;他们希望了解有关功能的深入了解，以便他们能够向其他人解释。当我们检查xgboost或sklearn渐变增强模型的特征重要性时，我们可以确定特征的重要性......但我们不明白为什么这些特征很重要，是吗？有没有办法解释不仅是什么功能重要，而且为什么它们很重要？我被告知使用shap但即使运行一些样板实例抛出错误，所以我在寻找替代品（或者甚至只是一个程

0热度

1回答

什么是tf.extract_image_patches方法的意思？

我想将我的图像分成更小的窗口，这些窗口将发送到神经网络进行训练（例如面部检测器训练）。我在Tensorflow中找到tf.extract_image_patches方法，这看起来正是我需要的。 This question解释它的功能。的例子有示出的给定(1x10x10x1)（数字1通过100按顺序）输入ksize是(1, 3, 3, 1)（和strides(1, 5, 5, 1)）。输出是这样的

0热度

1回答

使用Spark_sklearn进行嵌套交叉验证GridSearchCV产生SPARK-5063错误

使用Spark_sklearn执行嵌套交叉验证GridSearchCV作为内部cv和sklearn cross_validate/cross_val_score作为外部cv结果“看起来您试图从广播变量引用SparkContext ，行动或转型“的错误。 inner_cv = StratifiedKFold(n_splits=2, shuffle=True, random_state=42) ou

0热度

1回答

使用sklearn时搞清楚类的标签MLP.predict_proba（）函数

我正在创建带标记类的神经网络，它们是二进制值列表，并且有1167个类。我想根据预测概率，以利用MLP.predict_proba（）到输出的前5类，但输出的是NP阵列的概率为每个类只由索引值标记，即 enter image description here 我想找出哪些类与这些概率相关联，并且预测函数能够正确输出代表它所预测类的二进制列表。无论如何，我可以手动将这些类标记为这些唯一的二进制列表吗？

0热度

1回答

MultisomialNB分类器中partial_fit的错误

在下面的代码中，数据是一个句子列表，而“y”列（data.metagroup）是一个类列表 - 一个直接的分类问题。问题：我想用partial_fit与MultinomialNB分类。基础上的文档，我传递一个稀疏向量X（称为xtrain），为y简单的串联（称为ytrain），以及用于np.array其classes是所有可能的类的列表。目标是最终使用xtrain和ytrain的子集，但我必