scikit-learn

    1热度

    1回答

    指导说明:“在监督问题的情况下,解释变量存储在.target成员中。”这是什么意思? 在该示例中scikit站点: http://scikit-learn.org/stable/auto_examples/plot_digits_classification.html 我不理解: 1)如果使用用于识别数字的任何特征提取器(边缘检测)。 2)目标矢量中的平均数是多少?图像显示的是相应的数字?

    0热度

    1回答

    我已经使用拟合方法训练了一个名为clf的估计器,并将模型保存到磁盘。下一次运行该程序,它将从磁盘加载clf。 我的问题是: 如何预测其保存在磁盘上的样本?我的意思是,如何加载并预测? 如何在预测后获取样本标签而不是标签整数?

    1热度

    3回答

    我的MAC OS会产生.DS_Store我的训练数据集的文件目录下,并load_files将加载它,并引发异常像 的UnicodeDecodeError:“UTF-8”编解码器不能解码位置,字节0xFF 1116 我想知道如何过滤.DS_Store文件,但删除它?

    4热度

    1回答

    我有一个很大的数据集,并试图从图像中获取gabor过滤器。当数据集变得太大时会出现内存错误。 到目前为止,我有这样的代码: import numpy from sklearn.feature_extraction.image import extract_patches_2d from sklearn.decomposition import MiniBatchDictionaryLearni

    0热度

    2回答

    假设我以时间序列的形式对局部温度,风速,气压,湿度等进行了测量,这就是我从世界上所知道的。时不时会有龙卷风袭击我的探测器。 因为龙卷风不只是随机的东西,有一种模式,训练的眼睛可以识别时间序列......温度,风速等的一些变化以某种方式相互关联,具有不可预测性周围波动。 我想以某种自动方式做到这一点,以识别时间序列中的时间间隔,该时间间隔对应于我的探测器“看到”龙卷风的时间段。 哪种机器学习方法更适

    2热度

    2回答

    让我们说我从训练集中选择了单个训练文档。我已经将它放入了我选择的特征中的特征向量X. 我试图做的事: self.clf = LogisticRegression() self.clf.fit(X, Y) 我Y就应该是这样的: [0 0 0 1 1 0 1 0 0 1 0] 我想训练我的一个单一的模式,使其最适合每个11个输出值同时。这似乎不适用于fit,因为我得到一个unhashable t

    15热度

    2回答

    我需要建立文本分类,现在我使用TfidfVectorizer和SelectKBest来选择功能,如下: vectorizer = TfidfVectorizer(sublinear_tf = True, max_df = 0.5, stop_words = 'english',charset_error='strict') X_train_features = vectorizer.fit_t

    6热度

    2回答

    我有兴趣了解概率估计是如何通过随机森林来计算的,无论是通常还是特定于Python的scikit-learn库(其中probability_results是由predict_proba函数返回的)。 感谢, 盖伊

    2热度

    2回答

    我真的很陌生,可以安装Python和相关软件包的使用。 作为一名生物学家,我正在寻找很多可以帮助我模拟物种系统,生态变化等的新软件包。在经历了很多“Google-ing”之后,我遇到了scikit-learn。 但是,我在安装时遇到问题。我现在要花点时间为这篇文章的篇幅道歉。 我使用的是64位Python 3.3,并且有关联的NumPy(MKL 1.7.0)和SciPy。我安装了可以正常工作的分发

    5热度

    2回答

    说我有一个这样的数据集: 5.9;0.645;0.12;2;0.075;32;44;0.99547;3.57;0.71;10.2;5 6;0.31;0.47;3.6;0.067;18;42;0.99549;3.39;0.66;11;6 ,其中1号11列表示的功能(酸性,氯化物等),最后一列表示给予项目评级(例如,5或6。) 数据集由此训练: target = [x[11] for x in