apache-spark-sql

0热度

3回答

我正在寻找一种方法来选择我的数据框在pyspark中的列。对于第一行，我知道我可以使用df.first()，但不确定列是否在没有列名。我有5列，并希望通过其中每一个循环。 +----------------+---+---+---+---+---+---+ | _1| _2| _3| _4| _5| _6| _7| +----------------+---+---+---+---+-

-1热度

2回答

如何创建自定义的用户定义聚合独特功能

我有一个数据框，其中包含4列。数据帧样本 id1 id2 id3 id4 --------------- a1 a2 a3 a4 b1 b2 b3 b4 b1 b2 b3 b4 c1 c2 c3 c4 b2 c1 a3 a4 c1 d4 有一排2种类型的数据的任一的所有列具有数据或仅一列。我想要在所有列上执行不同的功能，例如在

-1热度

1回答

pyspark：DataFrame.withColumn（）有时需要以不同的名称分配给新的DataFrame

这似乎特别发生在我将数字列乘以标量时，将DataFrame写回HDFS，然后尝试查看当我再次将它加载到DataFrame中时的值。例如，在pyspark shell中不会发生。 df = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>不翻转列 df_new = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>作品

0热度

1回答

Spark SQL UNION - ORDER BY列不在SELECT中

我正在做两个临时表的联合，并试图按列排序，但火花抱怨我无法解析我订购的列。这是一个错误还是我错过了什么？ lazy val spark: SparkSession = SparkSession.builder.master("local[*]").getOrCreate() import org.apache.spark.sql.types.StringType val ol

0热度

1回答

Apache Spark数量的执行程序

我在数据库上有Spark应用程序，它在32个节点的集群上运行，每个16个内核和30GB内存。我想改变一些会话配置，但无论我改变了什么，我都无法再让更多的执行者，然后32（如执行者页面上看到火花ui）？这些CONFIGS我已经改变了： spark.executor.instances spark.executor.memory spark.executor.cores 因为我读的并发任务最大

0热度

1回答

如何使用spark-submit提交包含查询的查询或.sql文件

我想在spark上运行查询。我把它们都在我的.sql文件目前我运行的方式是： spark-sql --master yarn /home/myuser/query.sql 但只要在查询完成谈到了火花SQL>内执行... 。shell提示然后作业状态不会更改成功完成它显示RUNNING由于spark-sql>外壳是活动的，所以我必须明确地做CTRL + C才能出来。所以我基本上只想提交一个s

2热度

2回答

PySpark组中的中位数/分位数通过

我想计算Spark数据框上的组分位数（使用PySpark）。无论是近似还是精确的结果都可以。我更喜欢在groupBy/agg的上下文中使用的解决方案，以便我可以将其与其他PySpark聚合函数混合使用。如果由于某种原因无法实现，则采用不同的方法也可以。 This question是相关的，但并不指示如何使用approxQuantile作为聚合函数。我也有权访问percentile_approx

0热度

1回答

使用火花结构化流式读取s3中的avro文件

我想使用spark结构化流式api读取s3中的avro文件。你可以找到有关使用kafka的信息，但是我找不到s3的任何信息。这里的问题是我不知道要设置什么格式。这里是我的简单代码： Dataset<Row> baseDataSet = sparkSession .readStream() .format("?") //What this format sho

2热度

2回答

如何把avg降序？

我想要得到一个降序，并使用spark从一个csv文件中取整数为zhvi。但是，当我在代码的末尾尝试sort(desc("Zhvi"))时。它总是给我错误。 from pyspark.sql.functions import col, desc stateByZhvi = home.select('State','Zhvi').groupBy((col("State"))).avg("Zhvi"

3热度

1回答

如何平均分配数据集以避免歪斜的连接（和长时间运行的任务）？

我正在用databricks笔记本上的Spark数据集API编写应用程序。我有2个表格。一个是15亿行，其次是250万。两个表都包含电信数据，并且使用国家代码和数字的前5位完成连接。产量有550亿行。问题是我有偏斜的数据（长时间运行的任务）。无论我如何重新分配数据集，由于散列键的分布不均匀，我会得到长时间运行的任务。我试着用广播连接，试图坚持在内存等大表分区..... 什么是我选择这里？