xgboost

0热度

1回答

我目前正在XGBoost/lightGBM之间进行测试，以便对项目进行排名。我正在复制这里提供的基准：https://github.com/guolinke/boosting_tree_benchmarks。我已经能够成功地重现他们的工作中提到的基准。我想确保我正确实现了我自己的ndcg指标版本，并正确理解排名问题。我的问题是：当使用NDCG创建测试集验证 - 有一个test.group文件

0热度

1回答

sample_weight在XGBregressor中不被识别

我想在python中使用scikit-learn API创建一个xgboost回归模型，指定一个权重列。下面是一个最小的代码示例： from xgboost import XGBRegressor import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), c

0热度

1回答

如何将多个特征向量有效地进行分类

我有4个numpy数组（特征）。 numpy阵列的尺寸为： a1=(360,100) a2=(360,100) a3=(360,100) a4=(360,13) 我有360个（4个类，每个是90个）音频文件。我从这些wav文件中获得了4个不同的功能（a1，.. a4）。我尝试了这些功能（a1，.. a4）来分别训练svm和分类音频。但有些结果不好。现在我想结合这4个特征来获得更好的结果。

0热度

2回答

XGBoost/CatBoost中含有大量类别的分类变量

我对随机森林有疑问。想象一下，我有关于用户与物品交互的数据。项目数量很大，大约为10 000个。我的随机森林输出应该是用户可能与之交互的项目（如推荐系统）。对于任何用户，我想使用描述用户过去已与之进行交互的项目的功能。但是，将分类产品功能映射为单热编码看起来效率非常低，因为用户最多只能与几百个项目进行交互，有时甚至可能只有5个。您将如何去关于构建一个随机森林时，其中一个输入要素是一个具有〜100

-1热度

3回答

如何处理数值分类变量在python xgboost中存在大量不同的值？

我想解决在python中使用xgboost的回归问题。但是我遇到了一个问题。我在很多地方搜索过它，但无法获得任何具体结果。我有一个食物聚合器的商业模式。我的平台上的用户可以从许多不同的餐馆订购。我想使用回归模型来预测订单的ETA（用于在用户放置它之后在应用上显示）。我正在考虑在我的训练模型中使用“restaurant_id”作为功能。但现在问题是我的平台上有超过100家餐馆。我不能使用它的数字

2热度

2回答

删除xgboost.model剩余文件

每当我在R中使用xgboost（也可能是python）时，我在我正在处理的目录中发现一个xgboost.model文件。删除此文件不会为我的下一次运行xgboost创建任何问题。我不喜欢这个文件，并希望它永远不会出现。有没有一种设置可以让xgboost停止创建？

0热度

1回答

Java - xgboost DMatrix输入

在使用xgboost4j软件包在java中创建DMatrix时，首先我成功使用“filepath”创建矩阵。但是当我尝试训练模型： Booster booster = XGBoost.train(trainMat, params, round, watches, null, null); 我得到以下错误： ...regression_obj.cc:108: label must be

4热度

1回答

中的R xgboost预测是稀疏和密集矩阵

我训练使用xgboost库中由sparse.model.matrix产生的矩阵R的简单模型不同，那么我做了两个验证数据集的预测 - 通过创建一个sparse.model.matrix从Matrix和从stats第二个由model.matrix。令我惊喜的结果差异很大。稀疏矩阵和稠密矩阵具有相同的维度，所有数据都是数字，并且没有缺失值。在这两套平均预测如下：密集验证矩阵：0.5009256 稀

0热度

3回答

xgboost WinError127，Windows 10，anaconda

我想在我的笔记本电脑上安装xgboost以便在anaconda中使用。在遵循这个链接https://www.ibm.com/developerworks/community/blogs/jfp/entry/Installing_XGBoost_For_Anaconda_on_Windows?lang=en后，以及（我认为）每一步都被正确实现了，当我尝试在anaconda中导入xgboost时，我得

1热度

1回答

xgboost中的泊松回归对于低频失败

我试图在xgboost中实现一个提升的泊松回归模型，但是我发现结果偏向于低频率。为了说明，下面是一些最起码的Python代码，我认为复制问题： import numpy as np import pandas as pd import xgboost as xgb def get_preds(mult): # generate toy dataset for illustrati