pyspark-sql

    0热度

    1回答

    在读取不一致的模式写入parquet文件组时,我们遇到了有关模式合并的问题。 在切换到手动指定模式时出现以下错误。任何指针都会有帮助。 java.lang.UnsupportedOperationException:未实现类型:StringType 在org.apache.spark.sql.execution.datasources.parquet.VectorizedColumnReader.

    0热度

    1回答

    我在pycharm from pyspark.sql.functions import max, min, col中使用该行。 但是,它不能识别这些功能,即使它识别出log - 来自sql.functions的功能。为什么max,min和col得到认可? 我的pyspark版本是2.2,我的python版本是3.6(通过anaconda)。

    0热度

    1回答

    简单的问题,从一个新手在pySpark: 我有一个DF,我想作一个条件aggragation,返回聚集的结果,如果分母大于0否则为0 我试探性产生不同的一个错误: groupBy=["K"] exprs=[(sum("A")+(sum("B"))/sum("C") if sum("C")!=0 else 0 ] grouped_df=new_df.groupby(*groupBy).agg(*

    0热度

    1回答

    我的数据是这样 ID | Race | start | duration -------|---------| ------| --------- 234 | 1010 | turtle| 100 235 | 1010 | turtle| 101 236 | 1010 | turtle| 99 237 | 1010 | rabbit| 199 238 | 1010 | rabbit|

    1热度

    1回答

    虽然在Python学习星火,我无法理解这两个alias方法及其使用的目的。该documentation显示它被用来创建新名称现有DataFrame的副本,然后它们连接在一起: >>> from pyspark.sql.functions import * >>> df_as1 = df.alias("df_as1") >>> df_as2 = df.alias("df_as2") >>> j

    -3热度

    1回答

    我对Spark和Hadoop世界非常陌生。我已经开始通过互联网自己学习这些主题。我想知道如何在Spark DataFrame中执行异常检测,因为Spark中的DataFrame是不可变的?有没有可以执行此操作的Spark包或模块?我为Spark使用了PySpark API,因此如果有人回复了PySpark中的这种情况,我将非常感激。如果我在PySPark(Pyhton)的Spark DataFra

    0热度

    1回答

    “from pyspark.sql.types import Row”与“from pyspark.sql import Row”有什么不同?

    1热度

    1回答

    我正在使用以下代码来每年聚集学生。目的是了解每年的学生总数。 from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('Student_ID')).alias('total_stud

    -1热度

    1回答

    我有这样的数据帧我将调用DF1: 我具有第二数据帧,DF2(只有3行): 我想创建DF1一个新的专栏中,我会打电话给total_population_by_year1其中: 总_population_by_year1 =(DF2的内容,如果DF1年份为DF2年) 换句话说,新的行列将填充每年的总人口。 我迄今所做的: df_tg = DF2.join(DF1[DF1.total_populatio

    0热度

    2回答

    (SQL味火花本地SQL)说我有一排如: **userId** : String | **assignedEntities** : String JOHN | "ENTITY_1,ENTITIY_2,...,ENTITY_100" ,我想这件事分成“分块”大小2的名单,但使用不同的密钥,以确定它们: **userId** | **assignedEntities** JOHN_1 | "E