1
二元变量我有一个数据集,看起来像这样:结合R中
UserID Query Asthma Stroke
142 abc dr 0 0
142 asthma 1 0
142 stroke 0 1
145 stroke 0 1
145 pizza 0 0
有用户ID数十万,并且每个用户提交的可变数量的查询。为了做进一步分析,我需要为每个用户ID总结“哮喘”和“中风”。有什么建议?你能推荐处理这类数据集的资源吗?
预先感谢您......我对此很新。
'tapply'可能会做得很好。 'tapply(Asthma,INDEX = list(UserID),sum)'。如果这不是你想要的,你可能希望在你的问题中包含更多的细节。 – Jota
因为聚合的默认函数是sum,所以肯定有一个重复的和多次的聚合中的一个作为'aggregate(dfrm [,c(“Asthma”,“Stroke”)],dfrm $ UserID)“。 –
@DWin,:)。这是一个“广泛的”副本:D – Arun