如何为受监督的机器学习项目构建目标变量

我对机器学习有很少的经验，并且我做了一些项目，这是相当新的。如何为受监督的机器学习项目构建目标变量

现在我有一个项目涉及保险。所以我有关于客户端的数据库，我将合并以获取关于客户端的所有可能的信息，并且我有一个数据库用于索赔。我需要建立一个模型，以确定基于等级的客户风险程度。

我的问题：我需要建立自己的目标变量，根据客户的风险程度对客户进行排序，依据索赔。我可以有不同的策略来做到这一点，但我对我将如何处理以下问题感到困惑： - 在构建诸如聚类之类的队伍之前，我应该做一个特定类型的分析，还是我需要有一个强大的理论假设匹配与项目提供商的愿景。 - 如果我在索赔数据库中使用一些变量来建立队伍，那么我以后如何处理它们。换句话说，我应该将它们从最终的训练数据集中删除，以避免与目标变量相关，或者我可以以不同的方式处理它们并保留它们。 - 如果我保留它们，是否有特殊待遇取决于它们是分类变量还是连续变量。

来源

2017-06-29 Ahmed Essam

每个机器学习项目的起点都是EDA。首先创建一些功能，比如他们多频繁地收到不好的声明或者收到多少次。然后做一些EDA来找出哪些功能更有用。其次，这个问题看起来像分类。聚类通常很难评估。

来源

2017-07-20 05:01:35

如何为受监督的机器学习项目构建目标变量

回答

相关问题