quantile

    0热度

    1回答

    我要让数值到位数类别R和到现在为止我用 ntile 功能。但我很不确定这个函数如何计算分位数值,就像它也具有异常值一样。在获取分位数值时是否有其他方法可以消除异常值,请让我知道。

    0热度

    1回答

    我试图将我的数据分为三组,分别位于第30和第70百分位之间,以前我很容易通过平分组来获得我的数据,例如我的代码如下。 MV_UK$`1993` <- with(MV_UK, cut(MV_UK$`1993`, breaks = quantile(MV_UK$`1993`, probs = seq(0,1 , by= 0.5), na.rm = TRUE), include.lowest = TRU

    0热度

    1回答

    在Python StatsModel模块中运行分位数回归后出现错误。该错误是以下几点: ValueError Traceback (most recent call last) <ipython-input-221-3547de1b5e0d> in <module>() 16 model = smf.quantreg(fit_formula, train) 17 ---> 1

    1热度

    1回答

    考虑这个玩具的例子: 一位老师想要计算他班上学生的中位身高。但并不是所有的学生每天都会上课,所以在任何一天,计算出的中间身高可能不同。下表列出了他们在课堂上的可能性及其高度。有了这些信息,他可以估计预期的中位数。 >set.seed(123) >data1 <- data.frame(Student=c(LETTERS[1:10]), Height.cm=sort(rnorm(n=10, mea

    0热度

    2回答

    位数我有一个DF这样的: > df<-data.frame(Client.code = c(100451,100451,100523,100523,100523,100525),dayref = c(24,30,15,13,17,5)) > df Client.code dayref 1 100451 24 2 100451 30 3 100523 15 4 1

    1热度

    1回答

    我想根据前30百分位数,中位数40百分位数和下位30百分位数创建分类某个变量(在代码中称为wt_avg)。 例如 - structure(list(x = 1:10, class = c(1, 1, 1, 2, 2, 2, 2, 3, 3, 3)), .Names = c("x", "class"), row.names = c(NA, -10L), class = "data.frame")

    1热度

    2回答

    的数据是这样的: temp <- data.frame(type = c("a","b","c","d"), value=runif(100, 10, 2380)) temp <- as.data.table(temp) # type value # 1: a 2250.33013 # 2: b 1271.71251 # 3: c 2299.45486 # 4: d 807.300

    3热度

    1回答

    所有的火花quantilediscretizer, 我有一个毫升管道设置如下 import org.apache.spark.ml.feature.QuantileDiscretizer import org.apache.spark.sql.types.{StructType,StructField,DoubleType} import org.apache.spark.ml.Pipeli

    2热度

    1回答

    我试图创建一个函数,该函数接受一个数组,并在该数组中存储数据(按分位数),并用分箱数据填充字典。在生成的字典中,我希望这些键对应于二进制数字,并将这些值作为来自输入数组的数据列表,它们落入第j个和第(j + 1)个二进制限制范围内。 这里是我的代码: output = [] def binning(array1): d1 = {} # empty dictionary to fill

    2热度

    2回答

    我有两列数据表示相同的数量;一栏来自我的训练数据,另一栏来自我的验证数据。 我知道如何有效地利用计算训练数据的百分位排名: pandas.DataFrame(training_data).rank(pct = True).values 我的问题是,我怎么能有效得到相类似的一组验证数据列的百分位排名到训练数据列?也就是说,对于验证数据列中的每个值,如何才能找到其百分比排名相对于训练数据列中所有值