2017-06-29 85 views
0

我对机器学习有很少的经验,并且我做了一些项目,这是相当新的。如何为受监督的机器学习项目构建目标变量

现在我有一个项目涉及保险。所以我有关于客户端的数据库,我将合并以获取关于客户端的所有可能的信息,并且我有一个数据库用于索赔。我需要建立一个模型,以确定基于等级的客户风险程度。

我的问题:我需要建立自己的目标变量,根据客户的风险程度对客户进行排序,依据索赔。我可以有不同的策略来做到这一点,但我对我将如何处理以下问题感到困惑: - 在构建诸如聚类之类的队伍之前,我应该做一个特定类型的分析,还是我需要有一个强大的理论假设匹配与项目提供商的愿景。 - 如果我在索赔数据库中使用一些变量来建立队伍,那么我以后如何处理它们。换句话说,我应该将它们从最终的训练数据集中删除,以避免与目标变量相关,或者我可以以不同的方式处理它们并保留它们。 - 如果我保留它们,是否有特殊待遇取决于它们是分类变量还是连续变量。

回答

0

每个机器学习项目的起点都是EDA。首先创建一些功能,比如他们多频繁地收到不好的声明或者收到多少次。然后做一些EDA来找出哪些功能更有用。其次,这个问题看起来像分类。聚类通常很难评估。