-1

数据集:我得到了每个客户每天使用产品的分钟数,并试图将这些数据集群以便找到常见的使用模式。为使用群集准备数据

我的问题:如何格式化数据,以便例如一年内使用率高的高级用户看起来与仅能够使用该设备一个月的不同高级用户相同在我结束数据收集之前?

到目前为止,我已将每个客户转换为数组,其中每个单元格是当天使用的分钟数。该阵列在用户第一次使用产品时开始,并在用户第一年使用后结束。对于聚类模型,单元格中的所有条目都必须是double值(使用200.0分钟)。我曾考虑将数据收集的最后一天之后的所有单元格/天设置为-1.0或NULL。这些都是有效的方法吗?如果不是,你会建议什么?

+0

请**不要交叉**:http://datascience.stackexchange.com/q/11456/924 –

+0

数据科学社区要小得多,我没有及时预测到任何反应即使他们在这个问题上更合格。为什么把同一个问题发布到两个不同的社区是不合适的? –

回答

1

对于您希望两个用户的问题(一个使用该产品每天大量一年,并用了很多一个月的除外),创建一个新的条目,其中它的价值观是:

avg_usage per time_bin 

time_bin可以是最适合您需求的一个月,一天或另一个时间仓。 这种方式,它使用的产品的用户,比方说,每天200分钟,一年将获得:

200 * 30 * 12/12 = 6000 minutes per month 

和其他用户,其上个月刚刚加盟,也将获得,具有完全相同的使用情况将得到:

200 * 30 * 1/1 = 6000 minutes per month. 

这样,开始使用产品时无关紧要,唯一重要的是使用率。

您可能会考虑的一件重要事情是,产品可能会被遗忘一段时间。例如,一台电脑,而我不在度假。那些日子我没有使用我的电脑,没有(也许)我的这个产品的一般用法的影响。因此,根据您的数据,产品和直觉,您可能会考虑删除像我之前提到的差距,并且在计算过程中不考虑这些差距。

时间的用户使用你的产品可能是一些信号,但如果他确实只是开始前一段时间,并且仍然使用它,直到今天,它可能是你需要考虑到的东西,数量和对于这种用途,这种平均分档技术可能会有所帮助。