我是一个强大的Excel数据透视表用户,他强迫自己学习R.我完全知道如何在Excel中做这种分析,但无法弄清楚正确的方式来编码R.在R中的多个变量上分组
我试图按2个不同的变量对用户数据进行分组,然后将变量分组为范围(或分箱),然后总结其他变量。
这里的数据是什么样子:
userid visits posts revenue
1 25 0 25
2 2 2 0
3 86 7 8
4 128 24 94
5 30 5 18
… … … …
280000 80 10 100
280001 42 4 25
280002 31 8 17
这里就是我试图让输出看起来像:10达
VisitRange PostRange # of Users Total Revenue Average Revenue
0 0 X Y Z
1-10 0 X Y Z
11-20 0 X Y Z
21-30 0 X Y Z
31-40 0 X Y Z
41-50 0 X Y Z
> 50 0 X Y Z
0 1-10 X Y Z
1-10 1-10 X Y Z
11-20 1-10 X Y Z
21-30 1-10 X Y Z
31-40 1-10 X Y Z
41-50 1-10 X Y Z
> 50 1-10 X Y Z
想组通过走访和帖到一定的水平,然后将任何高于50的东西分组为'51'
我已经看到了一种方法来实现这一点,但我不认为它们会以我期望的方式工作,但我可以是错了。
最后,我知道我可以在SQL中使用和if/then语句来确定访问范围和帖子范围(例如,如果访问次数在1到10之间,则为'1-10'),然后只是按访问范围和帖子范围进行分组,但我的目标是开始强迫自己使用R.也许R在这里不是正确的工具,但我认为它是...
所有帮助将不胜感激。提前致谢。
欢迎来到SO。你可能很快就会从你对Excel的沉迷中得到治愈。 (它对我有用!现在我只能在胁迫下使用Excel ...) – Andrie
谢谢。我从多年的使用中知道得非常出色,但我也已经读过,R将会在分析方面吸取它。这是真的,对吗? – mikebmassey