我需要得到累积变量的洛伦兹曲线作为观测值数量的函数。我希望两个轴都以百分比形式显示(例如,观察值是买家数量,y变量是他们购买的数量,买家已经按降序排列,我想得到的情节是“前10名%购买者购买了总购买量的90%“)。我的数据集是几百万观察值。洛伦兹曲线图
这样做的最好方法是什么?子问题:
如果我需要为总观测值和总购买量的分位数添加两个变量(以便使用它们进行绘图),那么返回行数的对象是什么?我想:
user_quantile <- row(df)/nrow(df)
,但我得到相同的列(user_quantile.1,user_quantile.2),其中我只需要一列的矩阵。
是否有任何方式跳过添加百分比作为变量,只有他们的轴值?
这个情节有很多点,比我需要得到的线。最大限度地减少计算工作量并获得一张好图的最佳方法是什么?
谢谢。