pyspark-sql

0热度

1回答

pySpark：java.lang.UnsupportedOperationException：未实现类型：StringType

在读取不一致的模式写入parquet文件组时，我们遇到了有关模式合并的问题。在切换到手动指定模式时出现以下错误。任何指针都会有帮助。 java.lang.UnsupportedOperationException：未实现类型：StringType 在org.apache.spark.sql.execution.datasources.parquet.VectorizedColumnReader.

0热度

1回答

从pyspark.sql.functions输入max/min/avg/col

我在pycharm from pyspark.sql.functions import max, min, col中使用该行。但是，它不能识别这些功能，即使它识别出log - 来自sql.functions的功能。为什么max,min和col得到认可？我的pyspark版本是2.2，我的python版本是3.6（通过anaconda）。

0热度

1回答

条件aggragation GROUPBY

简单的问题，从一个新手在pySpark：我有一个DF，我想作一个条件aggragation，返回聚集的结果，如果分母大于0否则为0 我试探性产生不同的一个错误： groupBy=["K"] exprs=[(sum("A")+(sum("B"))/sum("C") if sum("C")!=0 else 0 ] grouped_df=new_df.groupby(*groupBy).agg(*

0热度

1回答

如何选择

我的数据是这样 ID | Race | start | duration -------|---------| ------| --------- 234 | 1010 | turtle| 100 235 | 1010 | turtle| 101 236 | 1010 | turtle| 99 237 | 1010 | rabbit| 199 238 | 1010 | rabbit|

1热度

1回答

PySpark中别名方法的用途是什么？

虽然在Python学习星火，我无法理解这两个alias方法及其使用的目的。该documentation显示它被用来创建新名称现有DataFrame的副本，然后它们连接在一起： >>> from pyspark.sql.functions import * >>> df_as1 = df.alias("df_as1") >>> df_as2 = df.alias("df_as2") >>> j

-3热度

1回答

pyspark数据框中的异常值检测

我对Spark和Hadoop世界非常陌生。我已经开始通过互联网自己学习这些主题。我想知道如何在Spark DataFrame中执行异常检测，因为Spark中的DataFrame是不可变的？有没有可以执行此操作的Spark包或模块？我为Spark使用了PySpark API，因此如果有人回复了PySpark中的这种情况，我将非常感激。如果我在PySPark（Pyhton）的Spark DataFra

0热度

1回答

from pyspark.sql.types import Row和from pyspark.sql import行

“from pyspark.sql.types import Row”与“from pyspark.sql import Row”有什么不同？

1热度

1回答

如何计算pyspark中groupBy后的唯一ID

我正在使用以下代码来每年聚集学生。目的是了解每年的学生总数。 from pyspark.sql.functions import col import pyspark.sql.functions as fn gr = Df2.groupby(['Year']) df_grouped = gr.agg(fn.count(col('Student_ID')).alias('total_stud

-1热度

1回答

与PySpark数据帧不同的长度作为新的列添加列

我有这样的数据帧我将调用DF1：我具有第二数据帧，DF2（只有3行）：我想创建DF1一个新的专栏中，我会打电话给total_population_by_year1其中：总_population_by_year1 =（DF2的内容，如果DF1年份为DF2年）换句话说，新的行列将填充每年的总人口。我迄今所做的： df_tg = DF2.join(DF1[DF1.total_populatio

0热度

2回答

如何将SQL中的行分成单独的编号行？

（SQL味火花本地SQL）说我有一排如： **userId** : String | **assignedEntities** : String JOHN | "ENTITY_1,ENTITIY_2,...,ENTITY_100" ，我想这件事分成“分块”大小2的名单，但使用不同的密钥，以确定它们： **userId** | **assignedEntities** JOHN_1 | "E