apache-spark-sql

0热度

2回答

spark在执行collect（）时发生NullPointerException异常

我试图在独立安装中使用Spark 2.2在我的开发环境中进行一些测试。我使用databricks库读取csv文件，然后创建临时视图。我使用spark.sql()运行select语句之后。如果我在该DataFrame上执行collect()或任何其他需要产卵执行程序的后续操作，我会收到NullPointerException。我使用火星壳BTW。这是我使用的代码： val dir = "D

0热度

1回答

如何计算Apache Spark DataFrame中所有列的不同值的数量

我想计算DataFrame中所有列的不同值的数量。说，我有这样一个数据帧： x y z ----- 0 0 0 0 1 1 0 1 2 而且我想格式的另一个数据框（或任何其他结构）： col | num --------- 'x' | 1 'y' | 2 'z' | 3 会是什么做的最有效的方法那？

1热度

1回答

在其中任何使用Sparksql工会与空值两列

我试图用SparkSQL来处理dataframe.The数据框的样子： A B 1 Null 2 Null Null 3 Null 4 如何使用加入或结合而形成新列C使数据帧可以是： A B c 1 Null 1 2 Null 2 Null 3 3 Null 4 4 *它保证了A和B不能同时为空或者非空;

0热度

1回答

Spark在数据框分区策略中的混淆

在以下内容中，我在所有四个打印语句中获得了相同数量的分区（200）。初始数据帧（df1）分为4列(account_id, schema_name, table_name, column_name)。但后续数据帧仅在3个字段(account_id, schema_name, table_name)中进行分区。有人可以向我解释一下，如果Spark能够保留step1-step4中的分区策略，并且在ste

0热度

2回答

Spark SQL中的case语句

我正在为我的公司工作。因此我需要使用Spark SQL case语句来过滤某些内容。我有一个名为OPP_amount_euro（用于保存某些东西的金额）的列，我有一个名为OPP_amount_euro_binned的列（默认值为1）。所以我想编程某种间隔。如果OPP_amount_euro中的值为< 30000，则OPP_amount_euro_binned中的值应为1，依此类推。我已经试

1热度

1回答

用于创建弹性搜索的复合键索引

我正在致力于通过SparkSQL进行HDFS弹性搜索集成。我可以从HDFS读取csv数据并创建弹性搜索索引。要创建弹性搜索索引ID，我使用csv数据中的唯一列之一。现在我的要求是弹性搜索索引ID应该是2个CSV列的组合。有谁知道我将如何实现这一目标？我正在使用elasticsearch-spark库来创建索引。以下是示例代码。 SparkSession sparkSession = SparkSe

0热度

1回答

AttributeError的：“StructField”对象有没有属性“_get_object_id”：用自定义模式加载拼花文件

我试图使用自定义模式读取使用PySpark拼花文件组，但它给了AttributeError的：“StructField”对象有没有属性' _get_object_id'错误。这里是我的示例代码： import pyspark from pyspark.sql import SQLContext, SparkSession from pyspark.sql import Row import

0热度

1回答

特殊字符

我有一个CSV，内容如下 id,pos_id,supplier_id 5127973,2000,"test 5704355,77,/10122 我想把它加载到数据帧和数据，因为它是文件，该数据帧将通过JDBC 装入postresql 这里我所做的： val conf = new SparkConf().setMaster("local[2]").setAppName("my app")

0热度

1回答

Hive无法设置登台目录的权限

即使我在运行作业之前设置了exec目录和暂存目录，我的配置单元作业仍然失败，出现以下错误，我不知道为什么默认属性没有更新。 SET hive.exec.scratchdir=/domain/usecase/warehouse/hive_scratch_tmp; SET hive.exec.stagingdir=/domain/usecase/warehouse/.staging; 例外： 1

1热度

1回答

如何列出Hive表的分区修剪输入？

我正在使用Spark SQL查询Hive中的数据。数据被分区并且Spark SQL在查询时正确地修剪分区。但是，我需要列出源表以及分区过滤器或特定的输入文件（.inputFiles将是明显的选择，但它不反映修剪）给定的查询，以确定哪个部分计算将发生的数据。我能够得到的最接近的是通过调用df.queryExecution.executedPlan.collectLeaves()。这包含相关的计划