quantile

    0热度

    1回答

    我有df索引作为日期和列也称为分数。现在我想保持原来的df值,但是添加了一个给出当天0.7分位数分数的列。分位数的方法需要是中点,也可以四舍五入到最接近的整数。

    1热度

    1回答

    警告:多部分问题! 我意识到这部分已经回答了其他地方,但我在努力把他们聚在一起的代码一个不错的简约位.... 我有一个数据帧与数字列的数目(24)利益。对于每一列,我想在同一个数据框(明智地命名)中创建一个新变量,其中的值对应于该变量的性别特定十分位的平均值(性别位于不同的列中,编码为0/1) 。 来自名为'WBC'的原始列的新列名将是,例如:'WBC_meandec_women'和'WBC_me

    0热度

    1回答

    我想为每个日期创建一列Quantile。计算每个唯一值销售额的分位数。即,类别始终对应于每个特定日期的相同销售数量。 我有按日期编制索引的数据框。有许多日期和多个相同的日期。 DF的子集1天的例子: Category Sales Ratio 1 Ratio 2 11/19/2016 Bar 300 0.46 0.96 11/19/2016 Bar 300 0.56 0.78 11

    1热度

    2回答

    对于下面的代码,我期望看到每个数字(1-25)在4个不同百分位数值下出现4次。然而,在百分点28和56,结果并不如预期。第28百分位数应为7和第56百分位数应为14 > quantile(1:25, seq(0,1,0.01), type=1) 0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15% 16% 17% 18% 19% 20

    0热度

    2回答

    百分的3个定义有百分3个定义: 最低数目比y个的x%的更大 最小数目大于或等于y的x%的数字 其中quantile()参数type匹配这三个定义中的百分位的加权平均值?

    0热度

    3回答

    我有一个熊猫时间序列ts = pd.TimeSeries(np.random.normal(0, 1, 100)),我想只选择第一个q-1分位数中的样本。 我能够得到分位数间隔:pd.qcut(ts, 10)但我怎样才能只选择前9个分位数的样本?

    0热度

    1回答

    这就是我到目前为止所做的。为了速度的目的,我想在dplyr或data.table中使用它。 test <- data.table(a = c(1,2,3,4,5,6), b = c("a", "b", "c", "a", "b", "c") , c = c(1,7,11,4,5,5)) a b c 1: 1 a 1 2: 2 b 7 3: 3

    3热度

    1回答

    我不知道我怎么会具有R告诉我SD(如qnorm一个参数()内建R中)正态分布,其95%的极限值已知?作为一个例子,我知道我的法线的两个95%极限值分别是158和168。因此,在下面的R代码SD显示为“x”。 如果 “Y”(在这个简单的qnorm()功能的回答)需要为(158,168),然后可以告诉[R我应该是什么X? y <- qnorm(c(.025,.975), 163, x)

    4热度

    1回答

    我试图通过等分分箱我的数据后访问标签(即位置指示器): q = pd.qcut(df["revenue"], 10) q.head(): 7 (317.942, 500.424] 81 (317.942, 500.424] 83 (150.65, 317.942] 84 [0.19, 150.65] 85 (317.942, 500.424] Name: revenue,

    1热度

    2回答

    原谅我的术语,我不是统计学专家或绘图专家! 使用熊猫,我试图绘制bucketed到“5 9s”的分位数据。也就是说,对于一个给定的数据帧“DF”,其具有不均匀分布的整数值的串联“富”: q = df['foo'].quantile([.1, .2, .3, .4, .5, .6, .7, .8, .9, .99, .999, .9999, .99999, 1]) q.plot() 结果的曲线