scikit-learn

15热度

2回答

背景：我刚刚开始使用scikit-learn，并在页面底部阅读有关joblib, versus pickle的信息。可能更有趣的使用JOBLIB的替代泡菜（joblib.dump & joblib.load），这是对大数据更有效，但只能咸菜到磁盘，而不是一个字符串我读过这个Q & A在Pickle上， Common use-cases for pickle in Python并想知道这里的社区

4热度

2回答

从群集算法验证输出

有没有客观的方法来验证聚类算法的输出？我正在使用scikit-learn的关联传播聚类来对由具有许多属性的对象组成的数据集。提供给聚类算法的差异矩阵由这些属性的加权差异组成。我正在寻找一种方法来客观验证距离权重中的调整，反映在所得到的群集中。数据集很大，并且具有足够的属性，因此手动检查小例子不是验证生成的集群的合理方法。

1热度

3回答

使用StratifiedShuffleSplit与稀疏矩阵

我想复制StratifiedShuffleSplit的例子，X不是一个数组，而是一个稀疏矩阵。在下面的例子中，这个矩阵是由一个DictVectorizer拟合到一个混合名义和数字特征的数组。 from sklearn.feature_extraction import DictVectorizer from sklearn.preprocessing import LabelEncoder f

3热度

2回答

scikit支持在[0,1]或[-1,1]之间缩放功能

scikit-learn的SVM基于LIBSVM。 LIBSVM/SVM要求应缩放数据，建议特征值应在两个范围[0,1]或[-1,1]之一中。也就是说，在典型的矩阵中，每列都是一个特征，缩放是按每列完成的。 LIBSVM FAQ表明一个简单的缩放得到[0,1]之间的特征： x'=(x-min)/(Max-min) 是否scikit学习支持这种“简单的缩放”？是否还有其他建议来扩展要与SVM和R

14热度

1回答

在scikit-learn中结合特征提取类

我使用sklearn.pipeline.Pipeline来链特征提取器和分类器。有没有办法将多个特征选择类（例如sklearn.feature_selection.text）并行加入其输出？我的代码现在看起来如下： pipeline = Pipeline([ ('vect', CountVectorizer()), ('tfidf', TfidfTransformer()),

1热度

1回答

为机器学习选择正确的数据类型

我一直对machine learning充满好奇，并且我正在使用this进行学习。我能够编译没有问题的代码，并生成图形。我想使用不同的数据源。目前，他们正在使用股票价格： d1 = datetime.datetime(2003, 01, 01) d2 = datetime.datetime(2008, 01, 01) symbol_dict = { 'TOT': 'Total

20热度

4回答

如何从Java调用scikit-learn分类器？

我有一个分类，我使用Python的scikit学习培训。我如何使用Java程序中的分类器？我可以使用Jython吗？有没有办法在Python中保存分类器并使用Java加载它？有没有其他的方式来使用它？

11热度

4回答

为什么sklearn（python）和matlab统计软件包中的LASSO不同？

我使用LaasoCV从sklearn选择通过交叉验证选择最佳模型。我发现如果使用sklearn或matlab统计工具箱，交叉验证会给出不同的结果。我用matlab和复制在 http://www.mathworks.se/help/stats/lasso-and-elastic-net.html 给出的例子中得到这样然后我救了matlab数据的图形，并试图从sklearn复制与laaso_pat

2热度

1回答

scikit.learn和kmeans的新手段，如何使用K表示将文档集群化（来自文件）？

我想要做的就是使用scikit.learn中的Kmeans将纯文本文档分为两类。这是用例场景。我将会收到一些将被标记为“重要”并且将被标记为“不重要”的样本集。从scikit.learn实例数据集是从新闻组预定义的格式： dataset = fetch_20newsgroups(subset='all', categories=categories, shuffle=T

3热度

1回答

sci-kit学习：使用SelectKBest时识别相应的功能ID值

我正在使用sci-kit learn（版本0.11，Python版本2.7.3）从svmlight格式的二进制分类数据集中选择前K个特征。我想确定所选功能的功能ID值。我认为这很简单 - 很可能！（通过要素id，我指的是特征值描述here之前数）下面的代码说明正是我如何一直在努力做到这一点： from sklearn.datasets import load_svmlight_file f