scikit-learn

5热度

2回答

我开始使用scikit-learn来做一些NLP。我已经使用了NLTK中的一些分类器，现在我想尝试在scikit-learn中实现的分类器。我的数据基本上是句子，我从那些句子的某些单词中提取特征来做一些分类任务。我的大多数特征都是名义上的：单词的词性（POS），单词到左侧，POS词到左侧，单词到右侧，POS词到目标从一个词到另一个词的句法关系路径等。当我使用NLTK分类器（决策树，朴素贝叶斯）进

4热度

1回答

交叉验证的附加拟合参数

使用scikit-learn，有没有办法将附加参数传递给分类器的fit方法，当使用cross_val_score？举例来说，你会如何指定sample_weight或class_prior，对于MultinomialNB分类： scikit-learn's page about MultinomialNB

2热度

1回答

在scikit-learn中使用带多项式内核的支持向量分类器

我正在使用scikit-learn软件包中实现的不同分类器来做一些NLP任务。我用它来进行分类的代码如下 def train_classifier(self, argcands): # Extract the necessary features from the argument candidates train_argcands_feats = [] tra

6热度

1回答

scikit学习GMM产生我使用蟒蛇scikit学习包高斯混合模型来训练我的数据集的正数概率

，但是，我发现用我的代码 - G = mixture.GMM（.. 。） - G.fit（...） - G.score（和功能）生成的日志概率为正实数......这是为什么？是不是保证为负数的对数概率？我明白了。什么高斯混合模型返回给我们我对数概率“密度”而不是概率“质量”，所以正值是完全合理的。如果协方差矩阵接近奇异，则GMM不会perfomr好，通常这意味着数据不利于这样生成任务

5热度

1回答

为什么Scikit GradientBoostingClassifier不会让我使用最小二乘回归？

为什么它可能是 GradientBoostingClassifier(loss='ls') 失败： raise ValueError("``n_classes`` must be 1 for regression") ValueError: ``n_classes`` must be 1 for regression ，并与loss='deviance'完美的作品？我在scipy-0.

8热度

1回答

包含在Enthought Canopy分布中的scikit-learn的升级版本

我已经安装了EPD 7.3.1（现在称为Enthought Canopy），它带有scikit-learn v 0.11。我正在运行Ubuntu 12.04。我需要安装v 0.12的scikit-learn。的scikit学习doc says克隆库，添加scikit学习目录到你的PYTHONPATH，并建立在地方的延伸：python setup.py build_ext --inplace 的问

5热度

1回答

在朴素贝叶斯（Python，scikit）中使用稀疏矩阵/在线学习

我试图对拥有超过6,000,000个条目和每个条目150k特征的数据集做朴素贝叶斯。我试图实现从以下链接代码： Implementing Bag-of-Words Naive-Bayes classifier in NLTK 的问题是（据我所知），当我尝试用dok_matrix运行列车的方法，因为它的参数，它无法找到出iterkeys（我已经与OrderedDict配对的行为标签）： Traceb

2热度

1回答

Pandas＆Scikit：切片时的内存使用情况DataFrame

我有一个大的DataFrame，从csv文件（约300MB）加载。从此，我提取几十功能于一身RandomForestClassifier使用方法：一些功能被简单地列在数据导出，例如： feature1 = data["SomeColumn"].apply(len) feature2 = data["AnotherColumn"] 而另外一些是作为新创建从numpy的阵列DataFrame

3热度

1回答

SVM整数特征

我在机器学习python的scikit-learn软件包中使用SVM分类器。我的功能是整数。当我调用fit函数时，我得到用户警告“Scaler假定浮点值作为输入，得到int32”，SVM返回它的预测，我计算混淆矩阵（我有2个类）和预测精度。我试图避免用户警告，所以我将这些功能保存为浮动。事实上，警告消失了，但我得到了完全不同的混淆矩阵和预测准确性（令人惊讶的是不太准确）有人知道它为什么会发生

2热度

1回答

如何在KFold中使用shuffle in scikit_learn

我使用scikit-learn提供的KFold函数运行10倍CV以选择一些内核参数。我实现这个（grid_search）过程： 1-pick up a selection of parameters 2-generate a svm 3-generate a KFold 4-get the data that correspons to training/cv_test 5-train t