0

我发布了关于stat stack exchange的问题,但不幸的是到目前为止还没有答案,所以我在这里克隆它,并希望有人能够提供帮助。Chi square和zscore - 选择哪一个?

我是机器学习的新手。最近我试图学习这件事,并得到以下关注:

我有产品分类的类别。此外,我还向用户提供性别和设备型号信息。

首先,我做了一个卡方检验,检查类别和性别+设备信息是否关联。例如,我的p值是0.000012,所以我说用户(性别+设备)与类别相关联。

因此,如果一个新的用户来与他的性别(女)+设备(iPhone):

  1. 由于卡方检验结果,应该有性别+设备和类别之间的关联。所以我选择女性使用iPhone的十大类别。我有名单,例如[1。时尚,2.移动设备3.相机,4.家庭家具,5.自行车等]

  2. 我还做了类别(没有任何用户信息)的z-测试,并得到列表(更高的z比分最高),例如[1。移动设备,2.自行车,3.时尚,4.笔记本电脑等]

所以在这种情况下,我应该给那个用户哪个列表?或者将它们结合起来的可能性?还是我做错了什么?

在此先感谢:-)

回答

0

严格地说,没有测试是适当的。在两次测试中,您都有一个零假设(即性别和模型与类别无关),并且您试图找出此假设错误的概率。然而,这两个测试是参数测试,即结果是正确的,你必须知道概率遵循特定的分布(分别为卡方和正态分布)。在你的情况下,你不能做出这样的假设,所以测试不适合。如果要使用显着性检验,则应使用非参数检验,Wilcoxon和Friedman检验最为常见。然而,在问题解决之后,通常使用显着性检验来检查所获得的结果是否归因于运气。他们不习惯解决问题。

如果你想找到之间的性别,型号和类别的相关性,你应该使用一些相关系数,如Pearson相关内相关。但是,您尚未详细描述您的数据,因此我不确定您要实现的目标。仅基于性别和模型,可能最安全和最简单的事情是使用iPhone的女性返回访问次数最多的类别(出现次数)。

+0

感谢您的回答。 1.你能解释为什么我的两个数据不是chis square/normal distribution? 我不太确定使用两个设备+性别的用户数据作为卡方检验的参数是否正确(您能解释为什么这不应该是正确的吗?)。但是,用户数量的z测试如何消费这些类别呢?据我了解,这可能是一个正常的分布。 2.是的,选择访问量最大的类别是安全的,简单的,但是这可能不是用户最好的比赛吗?任何其他建议? 非常感谢:-) – 2014-11-26 12:46:01

+0

1)您使用的测试都是统计显着性测试,它们用于检查两个变量是否遵循相同的分布。它们主要用于比较结果集,而不是找到相关性。为了找到相关性,最常见的指标是皮尔逊的。 2)由于z检验比较了两组变量,我不知道如何将性别和电话结合在一个属性中。然而,它们都没有遵循正态分布(因为它们是无序的,名义值) – 2014-11-27 10:32:36

+0

1.我听说过皮尔逊的相关性,但不认为它适用于我的情况。你能解释一下吗? 2.不,我为每个类别的消费数量分别为性别和手机模型做了Z值。但是,我从来没有想过正常的分配元素必须订购:S – 2014-11-27 12:12:27