xgboost

    0热度

    1回答

    我目前正在XGBoost/lightGBM之间进行测试,以便对项目进行排名。我正在复制这里提供的基准:https://github.com/guolinke/boosting_tree_benchmarks。 我已经能够成功地重现他们的工作中提到的基准。我想确保我正确实现了我自己的ndcg指标版本,并正确理解排名问题。 我的问题是: 当使用NDCG创建测试集验证 - 有一个test.group文件

    0热度

    1回答

    我想在python中使用scikit-learn API创建一个xgboost回归模型,指定一个权重列。下面是一个最小的代码示例: from xgboost import XGBRegressor import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), c

    0热度

    1回答

    我有4个numpy数组(特征)。 numpy阵列的尺寸为: a1=(360,100) a2=(360,100) a3=(360,100) a4=(360,13) 我有360个(4个类,每个是90个)音频文件。我从这些wav文件中获得了4个不同的功能(a1,.. a4)。我尝试了这些功能(a1,.. a4)来分别训练svm和分类音频。但有些结果不好。现在我想结合这4个特征来获得更好的结果。

    0热度

    2回答

    我对随机森林有疑问。想象一下,我有关于用户与物品交互的数据。项目数量很大,大约为10 000个。我的随机森林输出应该是用户可能与之交互的项目(如推荐系统)。对于任何用户,我想使用描述用户过去已与之进行交互的项目的功能。但是,将分类产品功能映射为单热编码看起来效率非常低,因为用户最多只能与几百个项目进行交互,有时甚至可能只有5个。 您将如何去关于构建一个随机森林时,其中一个输入要素是一个具有〜100

    -1热度

    3回答

    我想解决在python中使用xgboost的回归问题。但是我遇到了一个问题。我在很多地方搜索过它,但无法获得任何具体结果。 我有一个食物聚合器的商业模式。我的平台上的用户可以从许多不同的餐馆订购。 我想使用回归模型来预测订单的ETA(用于在用户放置它之后在应用上显示)。我正在考虑在我的训练模型中使用“restaurant_id”作为功能。但现在问题是我的平台上有超过100家餐馆。我不能使用它的数字

    2热度

    2回答

    每当我在R中使用xgboost(也可能是python)时,我在我正在处理的目录中发现一个xgboost.model文件。删除此文件不会为我的下一次运行xgboost创建任何问题。我不喜欢这个文件,并希望它永远不会出现。有没有一种设置可以让xgboost停止创建?

    0热度

    1回答

    在使用xgboost4j软件包在java中创建DMatrix时,首先我成功使用“filepath”创建矩阵。 ​​ 但是当我尝试训练模型: Booster booster = XGBoost.train(trainMat, params, round, watches, null, null); 我得到以下错误: ...regression_obj.cc:108: label must be

    4热度

    1回答

    我训练使用xgboost库中由sparse.model.matrix产生的矩阵R的简单模型不同,那么我做了两个验证数据集的预测 - 通过创建一个sparse.model.matrix从Matrix和从stats第二个由model.matrix。令我惊喜的结果差异很大。稀疏矩阵和稠密矩阵具有相同的维度,所有数据都是数字,并且没有缺失值。 在这两套 平均预测如下: 密集验证矩阵:0.5009256 稀

    0热度

    3回答

    我想在我的笔记本电脑上安装xgboost以便在anaconda中使用。在遵循这个链接https://www.ibm.com/developerworks/community/blogs/jfp/entry/Installing_XGBoost_For_Anaconda_on_Windows?lang=en后,以及(我认为)每一步都被正确实现了,当我尝试在anaconda中导入xgboost时,我得

    1热度

    1回答

    我试图在xgboost中实现一个提升的泊松回归模型,但是我发现结果偏向于低频率。为了说明,下面是一些最起码的Python代码,我认为复制问题: import numpy as np import pandas as pd import xgboost as xgb def get_preds(mult): # generate toy dataset for illustrati