2017-02-04 73 views
0

我想在我的数据集上运行聚类算法。我的数据集是一组数据包(源IP,目的地,端口,类标签)。我想将这些数据从名义数据转换为数字数据。什么是适当的技术来转换这些数据?将标称转换为数字数据?

回答

0

通常的做法是执行一个热门编码。虽然这显然是对数据进行数字编码,但它带来了一些问题。

  1. 增加了维度。这通常会导致可扩展性和歧视问题(点之间的距离变得太相似)
  2. 规范化和加权问题。典型正常化策略,如最小 - 最大定标和标准化根据需要不工作”
  3. 相关属性
  4. 处理的新属性的值
  5. 的变量将是离散的。许多算法如k-means要求连续属性才能正常工作。
  6. 解释问题。例如。一个集群中心通常不会以有意义的方式映射回原始空间。