Chi square和zscore - 选择哪一个？

我发布了关于stat stack exchange的问题，但不幸的是到目前为止还没有答案，所以我在这里克隆它，并希望有人能够提供帮助。Chi square和zscore - 选择哪一个？

我是机器学习的新手。最近我试图学习这件事，并得到以下关注：

我有产品分类的类别。此外，我还向用户提供性别和设备型号信息。

首先，我做了一个卡方检验，检查类别和性别+设备信息是否关联。例如，我的p值是0.000012，所以我说用户（性别+设备）与类别相关联。

因此，如果一个新的用户来与他的性别（女）+设备（iPhone）：

由于卡方检验结果，应该有性别+设备和类别之间的关联。所以我选择女性使用iPhone的十大类别。我有名单，例如[1。时尚，2.移动设备3.相机，4.家庭家具，5.自行车等]
我还做了类别（没有任何用户信息）的z-测试，并得到列表（更高的z比分最高），例如[1。移动设备，2.自行车，3.时尚，4.笔记本电脑等]

所以在这种情况下，我应该给那个用户哪个列表？或者将它们结合起来的可能性？还是我做错了什么？

在此先感谢:-)

来源

2014-11-25 khoi nguyen

严格地说，没有测试是适当的。在两次测试中，您都有一个零假设（即性别和模型与类别无关），并且您试图找出此假设错误的概率。然而，这两个测试是参数测试，即结果是正确的，你必须知道概率遵循特定的分布（分别为卡方和正态分布）。在你的情况下，你不能做出这样的假设，所以测试不适合。如果要使用显着性检验，则应使用非参数检验，Wilcoxon和Friedman检验最为常见。然而，在问题解决之后，通常使用显着性检验来检查所获得的结果是否归因于运气。他们不习惯解决问题。

如果你想找到之间的性别，型号和类别的相关性，你应该使用一些相关系数，如Pearson相关和内相关。但是，您尚未详细描述您的数据，因此我不确定您要实现的目标。仅基于性别和模型，可能最安全和最简单的事情是使用iPhone的女性返回访问次数最多的类别（出现次数）。

来源

2014-11-25 11:24:27

感谢您的回答。 1.你能解释为什么我的两个数据不是chis square/normal distribution？我不太确定使用两个设备+性别的用户数据作为卡方检验的参数是否正确（您能解释为什么这不应该是正确的吗？）。但是，用户数量的z测试如何消费这些类别呢？据我了解，这可能是一个正常的分布。 2.是的，选择访问量最大的类别是安全的，简单的，但是这可能不是用户最好的比赛吗？任何其他建议？非常感谢:-) – 2014-11-26 12:46:01

1）您使用的测试都是统计显着性测试，它们用于检查两个变量是否遵循相同的分布。它们主要用于比较结果集，而不是找到相关性。为了找到相关性，最常见的指标是皮尔逊的。 2）由于z检验比较了两组变量，我不知道如何将性别和电话结合在一个属性中。然而，它们都没有遵循正态分布（因为它们是无序的，名义值） – 2014-11-27 10:32:36

1.我听说过皮尔逊的相关性，但不认为它适用于我的情况。你能解释一下吗？ 2.不，我为每个类别的消费数量分别为性别和手机模型做了Z值。但是，我从来没有想过正常的分配元素必须订购：S – 2014-11-27 12:12:27

Chi square和zscore - 选择哪一个？

回答

相关问题