我有一个名为df的pyspark数据框。 ONE LINE EXAMPLE:
df.take(1)
[Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")]
我有假期一天的清单: holydays=[u'2016-12-25',u'2016-12-08'....]
我想改用day_type为“HOLIDAY”如果“数据”是holyd
我想计算Spark数据框上的组分位数(使用PySpark)。无论是近似还是精确的结果都可以。我更喜欢在groupBy/agg的上下文中使用的解决方案,以便我可以将其与其他PySpark聚合函数混合使用。如果由于某种原因无法实现,则采用不同的方法也可以。 This question是相关的,但并不指示如何使用approxQuantile作为聚合函数。 我也有权访问percentile_approx