pyspark-sql

1热度

2回答

我有一个名为df的pyspark数据框。 ONE LINE EXAMPLE: df.take(1) [Row(data=u'2016-12-25',nome=u'Mauro',day_type="SUN")] 我有假期一天的清单： holydays=[u'2016-12-25',u'2016-12-08'....] 我想改用day_type为“HOLIDAY”如果“数据”是holyd

0热度

2回答

PySpark：如何将行转换为向量？

我在一个数据帧的工作有三列，可乐，COLB和COLC +---+-----+-----+-----+ |id |colA |colB |colC | +---+-----+-----+-----+ | 1 | 5 | 8 | 3 | | 2 | 9 | 7 | 4 | | 3 | 3 | 0 | 6 | | 4 | 1 | 6 | 7 | +---+-----+-----+-----

0热度

2回答

将pyspark分组的数据对象转换为火花Dataframe

我必须在pyspark数据框上执行2级分组。我试探性的： grouped_df=df.groupby(["A","B","C"]) grouped_df.groupby(["C"]).count() ，但我得到了以下错误： 'GroupedData' object has no attribute 'groupby' 我想我应该分组的对象首先转换成pySpark DF。但我不能那样做。

0热度

1回答

PySpark：我如何再加入一列到数据框？

我正在使用两个inicial列的数据帧，id和colA。 +---+-----+ |id |colA | +---+-----+ | 1 | 5 | | 2 | 9 | | 3 | 3 | | 4 | 1 | +---+-----+ 我需要合并该数据帧到另一列以上，COLB。我知道colB非常适合DataFrame的末尾，我只需要一些方法将它们连接在一起。 +-----+ |c

0热度

3回答

在Pyspark Dataframe中选择列

我正在寻找一种方法来选择我的数据框在pyspark中的列。对于第一行，我知道我可以使用df.first()，但不确定列是否在没有列名。我有5列，并希望通过其中每一个循环。 +----------------+---+---+---+---+---+---+ | _1| _2| _3| _4| _5| _6| _7| +----------------+---+---+---+---+-

-1热度

1回答

pyspark：DataFrame.withColumn（）有时需要以不同的名称分配给新的DataFrame

这似乎特别发生在我将数字列乘以标量时，将DataFrame写回HDFS，然后尝试查看当我再次将它加载到DataFrame中时的值。例如，在pyspark shell中不会发生。 df = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>不翻转列 df_new = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>作品

2热度

2回答

PySpark组中的中位数/分位数通过

我想计算Spark数据框上的组分位数（使用PySpark）。无论是近似还是精确的结果都可以。我更喜欢在groupBy/agg的上下文中使用的解决方案，以便我可以将其与其他PySpark聚合函数混合使用。如果由于某种原因无法实现，则采用不同的方法也可以。 This question是相关的，但并不指示如何使用approxQuantile作为聚合函数。我也有权访问percentile_approx

2热度

2回答

如何把avg降序？

我想要得到一个降序，并使用spark从一个csv文件中取整数为zhvi。但是，当我在代码的末尾尝试sort(desc("Zhvi"))时。它总是给我错误。 from pyspark.sql.functions import col, desc stateByZhvi = home.select('State','Zhvi').groupBy((col("State"))).avg("Zhvi"

0热度

1回答

分组数据计算方差

我想要计算PySpark2中的分组数据对象上的方差。看看http://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html#pyspark.sql.GroupedData，我没有看到任何内置的计算差异函数。是否有一种有效的方法来计算PySpark2中的GroupedData对象上的方差？这里是我将如何计算平均值的示例代码，最小值和最大值

0热度

2回答

如何根据Pyspark中的数据框中的条件设置新的列表值？

我有一个像下面的DataFrame。 +---+------------------------------------------+ |id |features | +---+------------------------------------------+ |1 |[6.629056, 0.26771536, 0.79063195,0.8923] | |2 |[1.