0
我需要将数据点分成彼此类似(“好”点)和其他人(“坏”点)类似的数据点。将数据集群分为好的和坏的
它看起来像某种聚类问题和我该怎么办:
我假设,至少有两个“好”之分。
- 查找所有类型点之间的成对距离。
- 查找最小距离(minDist)。
- 对所有点进行分层聚类。
- 在5 * minDist的高度进行切割。
- 假设与minDist在同一个簇中的所有点与该剪切下的属于所需的“良好”簇。
而且这个工作很好,但如果有两个点彼此非常接近。 minDist非常小,并且这种5 * minDist剪切也很小=>只有这2个点位于期望的“良好”簇中。
我认为,无论是我需要彻底改变这种做法,这里是第1题:
[1]“什么方法都存在相似点,从其他人分开”
或者我需要修改这个5 * minDist minDist的其他功能。问题是:
[2]“我可以选择作为5 * minDist的合理替代品吗?”
弗拉基米尔