cross-validation

1热度

1回答

我已经开始工作的一个项目，其中我需要检测训练的参数对于给定的scikit学习估计，如果可能的话，找个分类变量（和连续那些合理的时间间隔）的允许值。我可以使用estimator.get_params()来获取带参数的字典，然后使用estimator.set_params(**{'var1':val1, 'var2':val2})来设置值，依此类推。例如，对于KNN分类器，我们有以下的参数字典：

5热度

1回答

Python - LightGBM与GridSearchCV，永远在运行

最近，我正在做多个实验来比较Python XgBoost和LightGBM。看起来这个LightGBM是一种新的算法，人们说它在速度和准确性方面比XGBoost更好。这是LightGBM GitHub。这是LightGBM python API documents，在这里你会发现你可以调用的python函数。它可以直接从LightGBM模型调用，也可以通过LightGBM scikit-lea

1热度

1回答

在记录目标时使用交叉验证的未记录空间中的RMSE计算

我是python的新手，并且遇到目标记录时通过交叉验证计算RMSE的困难。我在下面的方式定义RMSE功能（当不记录目标）： def rmse_cv(model): rmse= np.sqrt(-cross_val_score(model, X_train_s, Y_train, scoring="neg_mean_squared_error", cv = 5)) return(rmse)

0热度

1回答

SciKit-Learn：交叉验证的结果非常不同

我正在使用SciKit-Learn 0.18.1和Python 2.7进行一些基本的机器学习。我试图通过交叉验证来评估我的模型有多好。当我这样做： from sklearn.cross_validation import cross_val_score, KFold cv = KFold(n=5, random_state = 100) clf = RandomForestRegresso

0热度

1回答

如何在R中正确使用plsr（）？

我在R中学习plsr，遇到了几个不同的例子，这些例子让我感到困惑。我看到了以下两种方法拟合和找到最佳组件的两种方法。我只想知道哪一种是正确的方式，并且首选？ 1）假设我们有一个称为数据的数据帧，它被分成列车数据data.train和测试数据data.test。然后PLSR安装为 plsr.fit = plsr(formula, data = data.train, validation = "CV

1热度

1回答

使用StratifiedKFold创建列车/测试/ val拆分

我试图使用StratifiedKFold创建列车/测试/ val拆分，以用于非sklearn机器学习工作流程。所以，DataFrame需要拆分，然后保持这种状态。我试图做类似下面，使用.values因为我路过熊猫DataFrames： skf = StratifiedKFold(n_splits=3, shuffle=False) skf.get_n_splits(X, y) for tr

0热度

1回答

如何在MATLAB中进行分层10折交叉验证分类？

我通常K-折交叉验证的实施是很像： K = 10; CrossValIndices = crossvalind('Kfold', size(B,2), K); for i = 1: K display(['Cross validation, folds ' num2str(i)]) IndicesI = CrossValIndices==i; TempInd =

0热度

1回答

交叉验证是否足以确保分类算法中不存在过度拟合？

我有一个数据集，一个类有45个观察值，另一个类有55个观察值。此外，我使用4个不同的功能，这些功能以前是通过使用功能选择过滤器选择的，虽然此过程的结果有点奇怪。％到85％），因为我在Matlab上使用classificationLearner。这将确保没有过度配合？或者仍然有机会呢？我如何确保没有过度配合？

1热度

1回答

交叉验证与Scikit中的网格搜索学习

我使用的是sklearn.model_selection.GridSearchCV和sklearn.model_selection.cross_val_score，同时这样做时我遇到了意想不到的结果。在我的例子中，我使用下面的进口： from sklearn.datasets import make_classification from sklearn.pipeline import Pip

0热度

1回答

输出与cv.glmnet

我想为我想，以适应泊松模型的数据集做交叉验证。然而，我注意到，当我使用lambda = 0时，我得到的功能cv.glm和cv.glmnet的输出非常不同。下面是我的基本泊松模型代码（第一部分是数据集的设置）： game_soon <- function(game_type, hour){ ret_vec <- c() len_game_type <- length(game_t