-1
我正在使用python.Now使用多项Logistic回归来执行特征选择(在具有1,00,000行和32个特征的数据集上),按顺序选择特征的最有效方式是什么为多类目标变量(1,2,3,4,5,6,7)建立模型?python中的多类逻辑回归中的特征选择
我正在使用python.Now使用多项Logistic回归来执行特征选择(在具有1,00,000行和32个特征的数据集上),按顺序选择特征的最有效方式是什么为多类目标变量(1,2,3,4,5,6,7)建立模型?python中的多类逻辑回归中的特征选择
当然,有几种方法可以选择你的功能。但有时下一个简单的方法可以帮助你。在线性模型的帮助下,您可以评估特征的贡献(通过对结果变量的潜在预测)。请注意,它主要适用于您怀疑您的功能与答案之间存在线性依赖关系的情况。
import statsmodels.formula.api as smf
# Lottery here is Y, the fields from X are right of ~
mod = smf.ols(formula='Lottery ~ Literacy + Wealth + Region', data=df)
res = mod.fit()
print(res.summary())
OLS Regression Results
==============================================================================
Dep. Variable: Lottery R-squared: 0.338
Model: OLS Adj. R-squared: 0.287
Method: Least Squares F-statistic: 6.636
Date: Tue, 28 Feb 2017 Prob (F-statistic): 1.07e-05
Time: 21:36:08 Log-Likelihood: -375.30
No. Observations: 85 AIC: 764.6
Df Residuals: 78 BIC: 781.7
Df Model: 6
Covariance Type: nonrobust
===============================================================================
coef std err t P>|t| [0.025 0.975]
-------------------------------------------------------------------------------
Intercept 38.6517 9.456 4.087 0.000 19.826 57.478
Region[T.E] -15.4278 9.727 -1.586 0.117 -34.793 3.938
Region[T.N] -10.0170 9.260 -1.082 0.283 -28.453 8.419
Region[T.S] -4.5483 7.279 -0.625 0.534 -19.039 9.943
Region[T.W] -10.0913 7.196 -1.402 0.165 -24.418 4.235
Literacy -0.1858 0.210 -0.886 0.378 -0.603 0.232
Wealth 0.4515 0.103 4.390 0.000 0.247 0.656
==============================================================================
Omnibus: 3.049 Durbin-Watson: 1.785
Prob(Omnibus): 0.218 Jarque-Bera (JB): 2.694
Skew: -0.340 Prob(JB): 0.260
Kurtosis: 2.454 Cond. No. 371.
==============================================================================
R平方值越大,选择的特征组合越好,可以预测线性模型中的响应。如果他们可以预测线性模型,那么我认为,他们在更复杂的模型(如决策树)中有更大的潜力。
请查看详细信息下页(请注意,一些额外的数据处理可能需要如果你的数据的错误异方差得到正确的结果): http://www.statsmodels.org/dev/example_formulas.html
当然,我建议您也可以为您的功能建立配对图。
这些方法不是很深,它们会引用相关性和您看到的内容,但有时(在不困难的情况下)是务实的。
功能选择是一个*巨大*的话题。我投票结束这个问题太广泛。 –
这看起来更像是一个统计问题,应该在 。但要给你一些谷歌:你可以做一个套索选择功能。但是,这是一个巨大的话题 –
检查在网络上的boruta功能选择[链接](https://github.com/scikit-learn-contrib/boruta_py)我已经尝试过,它运作良好。它模仿sklearn界面,因此您可以使用它来选择并应用分类器/回归器。但是,有很多特征选择/提取方法 – sera