请原谅我的初学者问题 - 我是R新手,在统计数据上相当不合理。通过响应频率降低交叉表大小
我有一个简单的应变表,它表示每个用户在一段时间内收集的一组网页的查询数量。总共有大约15,000个观测值。这适用于大约100个用户查看50组页面的表格。
由于50x100矩阵难以直观显示,我想提出一个按最大聚合排序的表的子集 - 无论是列(页组)还是行(用户),或者甚至是最大的行 - 列数。例如,我可能会选择前20位用户和前10位组,或者前99%的行数。
理想情况下,我最终得到的表格仍然代表了最具代表性的用户与页面组之间的主要交互。
这是一个合理的方法吗?我会失去一些大量的统计意义;而且,有没有办法比较前后的意义。
我必须承认,我仍然不知道如何根据两个因素对表格进行排序和子集,而不是逐行操纵。
查看[stats.se](http://stats.stackexchange.com/faq)网站 - 您的问题可能更适合。如果你这么认为,请举出你的问题,并请主持人为你转移它。 – sarnold 2012-03-02 02:24:49
(哦,等等,标记需要比目前更多的积分 - 只需在评论中回复'@ sarnold',如果你愿意的话,我会很高兴地为你效力。) – sarnold 2012-03-02 02:27:58
看起来像一个完美的R - 可计算的问题。缺少的是产生示例问题的代码。 – 2012-03-02 03:02:51