apache-spark-dataset

0热度

1回答

我的输入数据集看起来像ds [（T，U）]。 T和U都在下面。 T => (key1, key2, ...) and U => (value1, value2, ...) 聚集看起来像 ds.groupBy("key1", "key2", ...) .agg( sum("value1")).alias("value11"), sum("value2")).al

1热度

1回答

Spark：使用map并使用SparkSql减少

我不应该问这个问题，我真的不想问，但我迷路了。我看到很多以wordcount为例的教程。但我有问题，了解如何与sparkSql 使用它，例如，我有以下查询 Dataset<Row> totalItem = spark.sql(" select icode from bigmart.o_sales"); 它使我的数据集？现在我可以迭代totalItem和打印结果，但我想要计算该项目发生的次数

2热度

4回答

如何更改Spark数据集上的模式

当我使用select语句在Spark 2中检索数据集时，基础列会继承查询列的数据类型。 val ds1 = spark.sql("select 1 as a, 2 as b, 'abd' as c") ds1.printSchema() root |-- a: integer (nullable = false) |-- b: integer (nullable = false) |-

1热度

1回答

使用SQL火花

计算收入贡献我有一个表像这样 item mrp ----- ----- burger 500 burger 500 burger 600 pizza 1000 pizza 1000 pizza 1000 我需要计算汉堡包和比萨饼的收入贡献。一种方法是首先获取单个项目的mrp总数并存储在一个变量中，然后获得所有项目的总mrp总和，并进行分割。但是这需要遍历单个项目

1热度

1回答

火花UDF无法在双字段的空值

我想写一个火花UDF，用0.0代替双字段的空值。我正在使用数据集API。这里的UDF： val coalesceToZero=udf((rate: Double) => if(Option(rate).isDefined) rate else 0.0) 这是基于我测试了以下功能将被精细的工作： def cz(value: Double): Double = if(Option(value).i

0热度

1回答

在Apache Spark中将数据框写入Java中的Hive表格

我正在尝试完成“将数据框写入Hive表”的简单操作，下面是用Java编写的代码。我使用Cloudera VM时没有任何更改。 public static void main(String[] args) { String master = "local[*]"; SparkSession sparkSession = SparkSession .builder(

0热度

2回答

Spark中的关系转换

我想使用Spark DataSet加载相当大的数据（比方说），其中的子集数据看起来如下所示。 |age|maritalStatus| name|sex| +---+-------------+--------+---+ | 35| M| Joanna| F| | 25| S|Isabelle| F| | 19| S| Andy| M| | 70| M| Robert| M

-1热度

2回答

通过分割它

输入火花数据帧的格式转换以dataframe1 +-----+---------------+------------------------------------------------------------------------------------------------------------------+ |table| err_timestamp| err_me

0热度

2回答

WrapedArray的WrappedArray到java数组

我有一个类型集的列，我使用spark数据集API的collect_set()，它返回包装数组的包装数组。我想从嵌套包装数组的所有值中获取单个数组。我怎样才能做到这一点？例如， Cassandra表： Col1 {1,2,3} {1,5} 我正在使用Spark数据集API。 row.get(0)返回包装数组的包装数组。

1热度

1回答

火花数据集和方差

语境我已经创建了一个函数，它接受一个Dataset[MyCaseClass]，并返回它的列中的一个的元件的阵列 def columnToArray(ds: Dataset[MyCaseClass], columnName: String): Array[String] = { ds .select(columnName) .rdd .map(row =>