cross-validation

    1热度

    1回答

    我已经开始工作的一个项目,其中我需要检测训练的参数对于给定的scikit学习估计,如果可能的话,找个分类变量(和连续那些合理的时间间隔)的允许值。 我可以使用estimator.get_params()来获取带参数的字典,然后使用estimator.set_params(**{'var1':val1, 'var2':val2})来设置值,依此类推。 例如,对于KNN分类器,我们有以下的参数字典:

    5热度

    1回答

    最近,我正在做多个实验来比较Python XgBoost和LightGBM。看起来这个LightGBM是一种新的算法,人们说它在速度和准确性方面比XGBoost更好。 这是LightGBM GitHub。 这是LightGBM python API documents,在这里你会发现你可以调用的python函数。它可以直接从LightGBM模型调用,也可以通过LightGBM scikit-lea

    1热度

    1回答

    我是python的新手,并且遇到目标记录时通过交叉验证计算RMSE的困难。 我在下面的方式定义RMSE功能(当不记录目标): def rmse_cv(model): rmse= np.sqrt(-cross_val_score(model, X_train_s, Y_train, scoring="neg_mean_squared_error", cv = 5)) return(rmse)

    0热度

    1回答

    我正在使用SciKit-Learn 0.18.1和Python 2.7进行一些基本的机器学习。我试图通过交叉验证来评估我的模型有多好。当我这样做: from sklearn.cross_validation import cross_val_score, KFold cv = KFold(n=5, random_state = 100) clf = RandomForestRegresso

    0热度

    1回答

    我在R中学习plsr,遇到了几个不同的例子,这些例子让我感到困惑。我看到了以下两种方法拟合和找到最佳组件的两种方法。我只想知道哪一种是正确的方式,并且首选? 1)假设我们有一个称为数据的数据帧,它被分成列车数据data.train和测试数据data.test。然后PLSR安装为 plsr.fit = plsr(formula, data = data.train, validation = "CV

    1热度

    1回答

    我试图使用StratifiedKFold创建列车/测试/ val拆分,以用于非sklearn机器学习工作流程。所以,DataFrame需要拆分,然后保持这种状态。 我试图做类似下面,使用.values因为我路过熊猫DataFrames: skf = StratifiedKFold(n_splits=3, shuffle=False) skf.get_n_splits(X, y) for tr

    0热度

    1回答

    我通常K-折交叉验证的实施是很像: K = 10; CrossValIndices = crossvalind('Kfold', size(B,2), K); for i = 1: K display(['Cross validation, folds ' num2str(i)]) IndicesI = CrossValIndices==i; TempInd =

    0热度

    1回答

    我有一个数据集,一个类有45个观察值,另一个类有55个观察值。此外,我使用4个不同的功能,这些功能以前是通过使用功能选择过滤器选择的,虽然此过程的结果有点奇怪。 %到85%),因为我在Matlab上使用classificationLearner。这将确保没有过度配合?或者仍然有机会呢?我如何确保没有过度配合?

    1热度

    1回答

    我使用的是sklearn.model_selection.GridSearchCV和sklearn.model_selection.cross_val_score,同时这样做时我遇到了意想不到的结果。 在我的例子中,我使用下面的进口: from sklearn.datasets import make_classification from sklearn.pipeline import Pip

    0热度

    1回答

    我想为我想,以适应泊松模型的数据集做交叉验证。然而,我注意到,当我使用lambda = 0时,我得到的功能cv.glm和cv.glmnet的输出非常不同。下面是我的基本泊松模型代码(第一部分是数据集的设置): game_soon <- function(game_type, hour){ ret_vec <- c() len_game_type <- length(game_t