scikit-learn

    5热度

    2回答

    我开始使用scikit-learn来做一些NLP。我已经使用了NLTK中的一些分类器,现在我想尝试在scikit-learn中实现的分类器。我的数据基本上是句子,我从那些句子的某些单词中提取特征来做一些分类任务。我的大多数特征都是名义上的:单词的词性(POS),单词到左侧,POS词到左侧,单词到右侧,POS词到目标从一个词到另一个词的句法关系路径等。 当我使用NLTK分类器(决策树,朴素贝叶斯)进

    4热度

    1回答

    使用scikit-learn,有没有办法将附加参数传递给分类器的fit方法,当使用cross_val_score?举例来说,你会如何指定sample_weight或class_prior,对于MultinomialNB分类: scikit-learn's page about MultinomialNB

    2热度

    1回答

    我正在使用scikit-learn软件包中实现的不同分类器来做一些NLP任务。我用它来进行分类的代码如下 def train_classifier(self, argcands): # Extract the necessary features from the argument candidates train_argcands_feats = [] tra

    6热度

    1回答

    ,但是,我发现用我的代码 - G = mixture.GMM(.. 。) - G.fit(...) - G.score(和功能) 生成的日志概率为正实数......这是为什么? 是不是保证为负数的对数概率? 我明白了。什么高斯混合模型返回给我们我对数概率“密度”而不是概率“质量”,所以正值是完全合理的。 如果协方差矩阵接近奇异,则GMM不会perfomr好,通常这意味着数据不利于这样生成任务

    5热度

    1回答

    为什么它可能是 GradientBoostingClassifier(loss='ls') 失败: raise ValueError("``n_classes`` must be 1 for regression") ValueError: ``n_classes`` must be 1 for regression ,并与loss='deviance'完美的作品? 我在scipy-0.

    8热度

    1回答

    我已经安装了EPD 7.3.1(现在称为Enthought Canopy),它带有scikit-learn v 0.11。我正在运行Ubuntu 12.04。我需要安装v 0.12的scikit-learn。 的scikit学习doc says克隆库,添加scikit学习目录到你的PYTHONPATH,并建立在地方的延伸:python setup.py build_ext --inplace 的问

    5热度

    1回答

    我试图对拥有超过6,000,000个条目和每个条目150k特征的数据集做朴素贝叶斯。我试图实现从以下链接代码: Implementing Bag-of-Words Naive-Bayes classifier in NLTK 的问题是(据我所知),当我尝试用dok_matrix运行列车的方法,因为它的参数,它无法找到出iterkeys(我已经与OrderedDict配对的行为标签): Traceb

    2热度

    1回答

    我有一个大的DataFrame,从csv文件(约300MB)加载。 从此,我提取几十功能于一身RandomForestClassifier使用方法:一些功能被简单地列在数据导出,例如: feature1 = data["SomeColumn"].apply(len) feature2 = data["AnotherColumn"] 而另外一些是作为新创建从numpy的阵列DataFrame

    3热度

    1回答

    我在机器学习python的scikit-learn软件包中使用SVM分类器。 我的功能是整数。当我调用fit函数时,我得到用户警告“Scaler假定浮点值作为输入,得到int32”,SVM返回它的预测,我计算混淆矩阵(我有2个类)和预测精度。 我试图避免用户警告,所以我将这些功能保存为浮动。事实上,警告消失了,但我得到了完全不同的混淆矩阵和预测准确性(令人惊讶的是不太准确) 有人知道它为什么会发生

    2热度

    1回答

    我使用scikit-learn提供的KFold函数运行10倍CV以选择一些内核参数。我实现这个(grid_search)过程: 1-pick up a selection of parameters 2-generate a svm 3-generate a KFold 4-get the data that correspons to training/cv_test 5-train t