2017-03-09 123 views
0

我正在使用回归模型来预测120个属性的数值。这些属性中的7个属于Categorical,但最大的类别具有大约90,000个唯一值。我正在训练大约100万行数据。亚马逊机器学习与分类属性 - 限制

但是,当我查看数据源摘要中的分类属性时,可以看到它们显示最多5000个唯一值。这是AWS机器学习实施的某种限制,会影响我的模型的准确性,还是仅仅是汇总显示的限制?

AWS Categorical Attribute Summary

另外,我还强调了最频繁的类别结果,其中空白显示为最常用的值。 (这可能是因为我的CSV包含引号,因此是有效值)AWS ML是否忽略分类元素的空白条目?或者我应该使用UUID /随机字符串填充缺失的分类值,以便共用的“空白”值不会使预测发生偏差。

我知道某些ML模型会为新预测输入新的(以前未见过的训练)分类值时保留一个备用神经元。 AWS Machine Learning就是这种情况吗?

我是ML新手,很抱歉如果我的问题很蠢,或者我的方法/假设是错误的。我在询问之前扫描了AWS文档。

感谢。

+0

您正在使用大量的属性,因此它显然没有用于属性选择的科学推理,并且我们已经将没有*属性选择的所有属性用于学习**。某些属性可能对学习**意义不大,或者导致**反向学习**,也可能没有获取相关属性。我可以看到0.5左右的相关系数非常低。即使在使用大量数据时,专家们也会错过这方面的内容。使用PCA改善网络,没有备用神经元,**所有输入数据收敛到输出训练**。 – SACn

回答

1

使用如此多的类别值通常没什么意义,只有最高值会被使用,因为其他较小的类别没有太多的预测能力。

这些类别与目标具有非常高的相关性,这有点可疑。但是如果模型与他们一起工作,我不会太担心。您可以尝试在没有它们的情况下构建模型,以查看它是否有所作为,但我不会在选择功能时付出太多努力,并且在添加更多潜在功能时不会太努力。

+0

谢谢。是的,我希望用唯一“描述”这些类别的数字属性替换分类属性。我会比较两个输出。我只是想知道我在AWS中遇到了哪些限制..你知道AWS ML是否有使用最“有用的”5000分类值的硬性限制..或者你只是在谈论机器学习如何与一般许多分类值。 – Sprooose