数据集:我得到了每个客户每天使用产品的分钟数,并试图将这些数据集群以便找到常见的使用模式。为使用群集准备数据
我的问题:如何格式化数据,以便例如一年内使用率高的高级用户看起来与仅能够使用该设备一个月的不同高级用户相同在我结束数据收集之前?
到目前为止,我已将每个客户转换为数组,其中每个单元格是当天使用的分钟数。该阵列在用户第一次使用产品时开始,并在用户第一年使用后结束。对于聚类模型,单元格中的所有条目都必须是double值(使用200.0分钟)。我曾考虑将数据收集的最后一天之后的所有单元格/天设置为-1.0或NULL。这些都是有效的方法吗?如果不是,你会建议什么?
请**不要交叉**:http://datascience.stackexchange.com/q/11456/924 –
数据科学社区要小得多,我没有及时预测到任何反应即使他们在这个问题上更合格。为什么把同一个问题发布到两个不同的社区是不合适的? –