2017-04-13 501 views
0

我试图分析R中的数据集,其中我有一段时间的项目销售额,我想了解分类变量对销售数量的影响。R - 分析连续变量的分类变量的影响

library("data.table") 

qty <- c(100,10000,100,200,150,9000) 
flavour <- c("Mint","Herb","Mint","Mint","Herb","Fruit") 
category <- c("Multiple","Multiple","White","Multiple","Other","White") 

sales_data <- data.frame(qty,flavour,category) 

str(sales_data) 

'data.frame': 6 obs. of 3 variables: 
$ qty  : num 100 10000 100 200 150 9000 
$ flavour : Factor w/ 3 levels "Fruit","Herb",..: 3 2 3 3 2 1 
$ category: Factor w/ 3 levels "Multiple","Other",..: 1 1 3 1 2 3 

我一直在寻找多个压力和简单的线性回归,但我觉得我可能在错误的轨道上。我的理解是,我可以使用简单的线性回归来确定2个连续变量之间的关系。我可以看到有一种方法可以使用多个回归来理解分类变量和连续变量之间的关系,但我发现的例子似乎停止在二进制值。例如,有人吸烟或不吸烟。鉴于我对每个分类变量都有多个值,多重回归是正确的方式还是我完全偏离了轨道?

我的实际数据集有大约10个分类变量,其中一些与位置有关,其他与品牌有关。

任何帮助将不胜感激。并道歉,如果这是错误的地方,或者我错过了一些明显的东西 - 我正在学习统计数据和R在同一时间,所以很快变得困惑

+0

您需要查看建模分类数据。大多数广义线性模型的教科书/在线课程都会告诉你这个问题,它在R中的作用很小(只需在公式的RHS上加上你的变量)。 – Spacedman

+0

您声明'随时间推移项目的销售额',您示例中的哪个变量随时间而变化? – vincentmajor

+0

谢谢@Spacedman,我在使用什么样的搜索条件时迷路了 - 在许多兔子洞里。我会查找的,谢谢。 – user7863288

回答

1

你当然可以有一个连续因变量(qty)的连续和分类预测因子,它们不一定是二元的。分类变量应该是"factor"。对于问题中显示的两个分类/因子变量:

fm <- lm(qty ~., sales_data) 
summary(fm) 
+0

这假设数据正常分发。如果你想得到真正的非参数数据,如果你发现数据不是正态分布的或者决策树/随机森林,你可以使用glm。甚至还有贝叶斯信仰网络! – Zafar

+0

一些测试涉及正态性假设,但如果高斯马尔可夫定理的条件保持回归系数即使在非正态性存在时也是无偏的,而且它们在某种意义上是最好的。 –

+0

谢谢@ G.Grothendieck我会仔细看看这个。一件令我担心的事情是正常分配的主题。我已经阅读了大量需要正态分布的数据以应用一系列分析。可以肯定的是,有证据表明回归对于非正态数据仍然适用。 – user7863288