2016-09-21 87 views
1

对于R和机器学习来说非常新颖,但是我不得不基于许多变量e.e进行预测客户流失的项目。服务时间长度,发出的信用票据数量,错过交付的数量,价格上涨的数量等。R对于预测和倾向的预测模型原因%

我使用rpart和randomforest,并获得了每个客户端的流失预测数据集。我能够产生一个信心矩阵,看看哪些是重要的指标。但是,输出的目的是作为“风险”客户名单发送给销售团队处理。

对此,真正重要的是追加信心/倾向/可能性来搅动,这样我可以按照风险排序,但是有没有办法为每个客户添加一个类别/汇总/原因至于为什么他们被预测会流失 - 即客户abc - 价格上涨的高分,所以我们需要小心定价。客户对错过交付的拒绝率高 - 需要修复我们的服务?

非常感谢您的帮助。

回答

0
  1. 如果要预测流失概率,可以训练逻辑回归模型并使用模型预测流失概率。您还可以找出导致客户流失的重要预测变量(请参阅http://www.duplication.net.au/ANZMAC09/papers/ANZMAC2009-678.pdf),您可以使用anova和它一起查找重要前置变量解释的变化。
  2. 如果您想找出发生特定客户流失的原因,您可以学习决策树(CART/rpart)模型,然后按照从客户所属的决策树中的根节点到叶节点的路径学到了。
  3. 最后,randomForest集合分类器可用于根据OOB误差估计来查找流失的最重要预测变量。
+0

谢谢你的理解。然而,第2点听起来非常手动 - 如果我有10万客户,我是否需要为每个客户跟踪树下的变量?没有办法确定每个客户的根?谢谢 – user3103335