R对于预测和倾向的预测模型原因％

对于R和机器学习来说非常新颖，但是我不得不基于许多变量e.e进行预测客户流失的项目。服务时间长度，发出的信用票据数量，错过交付的数量，价格上涨的数量等。R对于预测和倾向的预测模型原因％

我使用rpart和randomforest，并获得了每个客户端的流失预测数据集。我能够产生一个信心矩阵，看看哪些是重要的指标。但是，输出的目的是作为“风险”客户名单发送给销售团队处理。

对此，真正重要的是追加信心/倾向/可能性来搅动，这样我可以按照风险排序，但是有没有办法为每个客户添加一个类别/汇总/原因至于为什么他们被预测会流失 - 即客户abc - 价格上涨的高分，所以我们需要小心定价。客户对错过交付的拒绝率高 - 需要修复我们的服务？

非常感谢您的帮助。

如果要预测流失概率，可以训练逻辑回归模型并使用模型预测流失概率。您还可以找出导致客户流失的重要预测变量（请参阅http://www.duplication.net.au/ANZMAC09/papers/ANZMAC2009-678.pdf），您可以使用anova和它一起查找重要前置变量解释的变化。
如果您想找出发生特定客户流失的原因，您可以学习决策树（CART/rpart）模型，然后按照从客户所属的决策树中的根节点到叶节点的路径学到了。
最后，randomForest集合分类器可用于根据OOB误差估计来查找流失的最重要预测变量。

2016-09-21 08:52:47

谢谢你的理解。然而，第2点听起来非常手动 - 如果我有10万客户，我是否需要为每个客户跟踪树下的变量？没有办法确定每个客户的根？谢谢 – user3103335

回答