apache-spark-sql

    0热度

    2回答

    我试图在独立安装中使用Spark 2.2在我的开发环境中进行一些测试。 我使用databricks库读取csv文件,然后创建临时视图。 我使用spark.sql()运行select语句之后。 如果我在该DataFrame上执行collect()或任何其他需要产卵执行程序的后续操作,我会收到NullPointerException。 我使用火星壳BTW。 这是我使用的代码: val dir = "D

    0热度

    1回答

    我想计算DataFrame中所有列的不同值的数量。 说,我有这样一个数据帧: x y z ----- 0 0 0 0 1 1 0 1 2 而且我想格式的另一个数据框(或任何其他结构): col | num --------- 'x' | 1 'y' | 2 'z' | 3 会是什么做的最有效的方法那?

    1热度

    1回答

    我试图用SparkSQL来处理dataframe.The数据框的样子: A B 1 Null 2 Null Null 3 Null 4 如何使用加入或结合而形成新列C使数据帧可以是: A B c 1 Null 1 2 Null 2 Null 3 3 Null 4 4 *它保证了A和B不能同时为空或者非空;

    0热度

    1回答

    在以下内容中,我在所有四个打印语句中获得了相同数量的分区(200)。初始数据帧(df1)分为4列(account_id, schema_name, table_name, column_name)。但后续数据帧仅在3个字段(account_id, schema_name, table_name)中进行分区。有人可以向我解释一下,如果Spark能够保留step1-step4中的分区策略,并且在ste

    0热度

    2回答

    我正在为我的公司工作。因此我需要使用Spark SQL case语句来过滤某些内容。 我有一个名为OPP_amount_euro(用于保存某些东西的金额)的列,我有一个名为OPP_amount_euro_binned的列(默认值为1)。 所以我想编程某种间隔。 如果OPP_amount_euro中的值为< 30000,则OPP_amount_euro_binned中的值应为1,依此类推。 我已经试

    1热度

    1回答

    我正在致力于通过SparkSQL进行HDFS弹性搜索集成。我可以从HDFS读取csv数据并创建弹性搜索索引。要创建弹性搜索索引ID,我使用csv数据中的唯一列之一。现在我的要求是弹性搜索索引ID应该是2个CSV列的组合。有谁知道我将如何实现这一目标?我正在使用elasticsearch-spark库来创建索引。以下是示例代码。 SparkSession sparkSession = SparkSe

    0热度

    1回答

    我试图使用自定义模式读取使用PySpark拼花文件组,但它给了AttributeError的:“StructField”对象有没有属性' _get_object_id'错误。 这里是我的示例代码: import pyspark from pyspark.sql import SQLContext, SparkSession from pyspark.sql import Row import

    0热度

    1回答

    我有一个CSV,内容如下 id,pos_id,supplier_id 5127973,2000,"test 5704355,77,/10122 我想把它加载到数据帧和数据,因为它是文件,该数据帧将通过JDBC 装入postresql 这里我所做的: val conf = new SparkConf().setMaster("local[2]").setAppName("my app")

    0热度

    1回答

    即使我在运行作业之前设置了exec目录和暂存目录,我的配置单元作业仍然失败,出现以下错误,我不知道为什么默认属性没有更新。 SET hive.exec.scratchdir=/domain/usecase/warehouse/hive_scratch_tmp; SET hive.exec.stagingdir=/domain/usecase/warehouse/.staging; 例外: 1

    1热度

    1回答

    我正在使用Spark SQL查询Hive中的数据。数据被分区并且Spark SQL在查询时正确地修剪分区。 但是,我需要列出源表以及分区过滤器或特定的输入文件(.inputFiles将是明显的选择,但它不反映修剪)给定的查询,以确定哪个部分计算将发生的数据。 我能够得到的最接近的是通过调用df.queryExecution.executedPlan.collectLeaves()。这包含相关的计划