apache-spark-sql

    0热度

    3回答

    我正在寻找一种方法来选择我的数据框在pyspark中的列。对于第一行,我知道我可以使用df.first(),但不确定列是否在没有列名。 我有5列,并希望通过其中每一个循环。 +----------------+---+---+---+---+---+---+ | _1| _2| _3| _4| _5| _6| _7| +----------------+---+---+---+---+-

    -1热度

    2回答

    我有一个数据框,其中包含4列。 数据帧样本 id1 id2 id3 id4 --------------- a1 a2 a3 a4 b1 b2 b3 b4 b1 b2 b3 b4 c1 c2 c3 c4 b2 c1 a3 a4 c1 d4 有一排2种类型的数据的任一的所有列具有数据或仅一列。 我想要在所有列上执行不同的功能,例如在

    -1热度

    1回答

    这似乎特别发生在我将数字列乘以标量时,将DataFrame写回HDFS,然后尝试查看当我再次将它加载到DataFrame中时的值。例如,在pyspark shell中不会发生。 df = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>不翻转列 df_new = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>作品

    0热度

    1回答

    我正在做两个临时表的联合,并试图按列排序,但火花抱怨我无法解析我订购的列。这是一个错误还是我错过了什么? lazy val spark: SparkSession = SparkSession.builder.master("local[*]").getOrCreate() import org.apache.spark.sql.types.StringType val ol

    0热度

    1回答

    我在数据库上有Spark应用程序,它在32个节点的集群上运行,每个16个内核和30GB内存。我想改变一些会话配置,但无论我改变了什么,我都无法再让更多的执行者,然后32(如执行者页面上看到火花ui)?这些CONFIGS我已经改变了: spark.executor.instances spark.executor.memory spark.executor.cores 因为我读的并发任务最大

    0热度

    1回答

    我想在spark上运行查询。我把它们都在我的.sql文件 目前我运行的方式是: spark-sql --master yarn /home/myuser/query.sql 但只要在查询完成谈到了火花SQL>内执行... 。shell提示然后作业状态不会更改成功完成它显示RUNNING由于spark-sql>外壳是活动的,所以我必须明确地做CTRL + C才能出来。 所以我基本上只想提交一个s

    2热度

    2回答

    我想计算Spark数据框上的组分位数(使用PySpark)。无论是近似还是精确的结果都可以。我更喜欢在groupBy/agg的上下文中使用的解决方案,以便我可以将其与其他PySpark聚合函数混合使用。如果由于某种原因无法实现,则采用不同的方法也可以。 This question是相关的,但并不指示如何使用approxQuantile作为聚合函数。 我也有权访问percentile_approx

    0热度

    1回答

    我想使用spark结构化流式api读取s3中的avro文件。你可以找到有关使用kafka的信息,但是我找不到s3的任何信息。这里的问题是我不知道要设置什么格式。这里是我的简单代码: Dataset<Row> baseDataSet = sparkSession .readStream() .format("?") //What this format sho

    2热度

    2回答

    我想要得到一个降序,并使用spark从一个csv文件中取整数为zhvi。 但是,当我在代码的末尾尝试sort(desc("Zhvi"))时。它总是给我错误。 from pyspark.sql.functions import col, desc stateByZhvi = home.select('State','Zhvi').groupBy((col("State"))).avg("Zhvi"

    3热度

    1回答

    我正在用databricks笔记本上的Spark数据集API编写应用程序。 我有2个表格。一个是15亿行,其次是250万。两个表都包含电信数据,并且使用国家代码和数字的前5位完成连接。产量有550亿行。问题是我有偏斜的数据(长时间运行的任务)。无论我如何重新分配数据集,由于散列键的分布不均匀,我会得到长时间运行的任务。 我试着用广播连接,试图坚持在内存等大表分区..... 什么是我选择这里?