2016-08-03 153 views
1

假设我正在尝试使用神经网络来预测我的运行需要多长时间。我有很多来自过去运行的数据。我计划跑步多少英里,海拔(丘陵),温度和天气的总变化:晴天,阴天,下雨或下雪。如何处理机器学习算法中的定性数据

我很困惑如何处理最后一块数据。对于标准化后我可以正常输入的所有内容,但我无法为天气做到这一点。我的初始只是有4个额外的变量,每个类型的天气一个,输入1或0取决于它是什么。

这是一个很好的方法来处理这种情况吗?我应该尝试其他方法吗?

回答

2

你有一个分类变量有四个级别。

编码这种值的一种非常典型的方法是为每一种使用单独的变量。或者更通常地,“n-1”编码,其中使用少一个标志(第四个值由全为0表示)。

n-1编码用于需要数字输入的技术 - 包括逻辑回归和神经网络。对于大数值的“n”,那么这是一个不好的选择。问题是它创建了稀疏数据的许多输入;稀疏数据高度相关。更多的输入意味着更多的网络自由度,使得网络难以训练。

在你的情况下,你只有四个值为这个特定的输入。将它分成三个变量可能是合理的。