亚马逊机器学习与分类属性 - 限制

我正在使用回归模型来预测120个属性的数值。这些属性中的7个属于Categorical，但最大的类别具有大约90,000个唯一值。我正在训练大约100万行数据。亚马逊机器学习与分类属性 - 限制

但是，当我查看数据源摘要中的分类属性时，可以看到它们显示最多5000个唯一值。这是AWS机器学习实施的某种限制，会影响我的模型的准确性，还是仅仅是汇总显示的限制？

另外，我还强调了最频繁的类别结果，其中空白显示为最常用的值。（这可能是因为我的CSV包含引号，因此是有效值）AWS ML是否忽略分类元素的空白条目？或者我应该使用UUID /随机字符串填充缺失的分类值，以便共用的“空白”值不会使预测发生偏差。

我知道某些ML模型会为新预测输入新的（以前未见过的训练）分类值时保留一个备用神经元。 AWS Machine Learning就是这种情况吗？

我是ML新手，很抱歉如果我的问题很蠢，或者我的方法/假设是错误的。我在询问之前扫描了AWS文档。

感谢。

来源

2017-03-09 Sprooose

您正在使用大量的属性，因此它显然没有用于属性选择的科学推理，并且我们已经将没有*属性选择的所有属性用于学习**。某些属性可能对学习**意义不大，或者导致**反向学习**，也可能没有获取相关属性。我可以看到0.5左右的相关系数非常低。即使在使用大量数据时，专家们也会错过这方面的内容。使用PCA改善网络，没有备用神经元，**所有输入数据收敛到输出训练**。 – SACn

使用如此多的类别值通常没什么意义，只有最高值会被使用，因为其他较小的类别没有太多的预测能力。

这些类别与目标具有非常高的相关性，这有点可疑。但是如果模型与他们一起工作，我不会太担心。您可以尝试在没有它们的情况下构建模型，以查看它是否有所作为，但我不会在选择功能时付出太多努力，并且在添加更多潜在功能时不会太努力。

来源

2017-03-18 22:42:40 Guy

谢谢。是的，我希望用唯一“描述”这些类别的数字属性替换分类属性。我会比较两个输出。我只是想知道我在AWS中遇到了哪些限制..你知道AWS ML是否有使用最“有用的”5000分类值的硬性限制..或者你只是在谈论机器学习如何与一般许多分类值。 – Sprooose

亚马逊机器学习与分类属性 - 限制

回答

相关问题