我发布了关于stat stack exchange的问题,但不幸的是到目前为止还没有答案,所以我在这里克隆它,并希望有人能够提供帮助。Chi square和zscore - 选择哪一个?
我是机器学习的新手。最近我试图学习这件事,并得到以下关注:
我有产品分类的类别。此外,我还向用户提供性别和设备型号信息。
首先,我做了一个卡方检验,检查类别和性别+设备信息是否关联。例如,我的p值是0.000012,所以我说用户(性别+设备)与类别相关联。
因此,如果一个新的用户来与他的性别(女)+设备(iPhone):
由于卡方检验结果,应该有性别+设备和类别之间的关联。所以我选择女性使用iPhone的十大类别。我有名单,例如[1。时尚,2.移动设备3.相机,4.家庭家具,5.自行车等]
我还做了类别(没有任何用户信息)的z-测试,并得到列表(更高的z比分最高),例如[1。移动设备,2.自行车,3.时尚,4.笔记本电脑等]
所以在这种情况下,我应该给那个用户哪个列表?或者将它们结合起来的可能性?还是我做错了什么?
在此先感谢:-)
感谢您的回答。 1.你能解释为什么我的两个数据不是chis square/normal distribution? 我不太确定使用两个设备+性别的用户数据作为卡方检验的参数是否正确(您能解释为什么这不应该是正确的吗?)。但是,用户数量的z测试如何消费这些类别呢?据我了解,这可能是一个正常的分布。 2.是的,选择访问量最大的类别是安全的,简单的,但是这可能不是用户最好的比赛吗?任何其他建议? 非常感谢:-) – 2014-11-26 12:46:01
1)您使用的测试都是统计显着性测试,它们用于检查两个变量是否遵循相同的分布。它们主要用于比较结果集,而不是找到相关性。为了找到相关性,最常见的指标是皮尔逊的。 2)由于z检验比较了两组变量,我不知道如何将性别和电话结合在一个属性中。然而,它们都没有遵循正态分布(因为它们是无序的,名义值) – 2014-11-27 10:32:36
1.我听说过皮尔逊的相关性,但不认为它适用于我的情况。你能解释一下吗? 2.不,我为每个类别的消费数量分别为性别和手机模型做了Z值。但是,我从来没有想过正常的分配元素必须订购:S – 2014-11-27 12:12:27