apache-spark-dataset

    0热度

    1回答

    我的输入数据集看起来像ds [(T,U)]。 T和U都在下面。 T => (key1, key2, ...) and U => (value1, value2, ...) 聚集看起来像 ds.groupBy("key1", "key2", ...) .agg( sum("value1")).alias("value11"), sum("value2")).al

    1热度

    1回答

    我不应该问这个问题,我真的不想问,但我迷路了。我看到很多以wordcount为例的教程。但我有问题,了解如何与sparkSql 使用它,例如,我有以下查询 Dataset<Row> totalItem = spark.sql(" select icode from bigmart.o_sales"); 它使我的数据集?现在我可以迭代totalItem和打印结果,但我想要计算该项目发​​生的次数

    2热度

    4回答

    当我使用select语句在Spark 2中检索数据集时,基础列会继承查询列的数据类型。 val ds1 = spark.sql("select 1 as a, 2 as b, 'abd' as c") ds1.printSchema() root |-- a: integer (nullable = false) |-- b: integer (nullable = false) |-

    1热度

    1回答

    计算收入贡献我有一个表像这样 item mrp ----- ----- burger 500 burger 500 burger 600 pizza 1000 pizza 1000 pizza 1000 我需要计算汉堡包和比萨饼的收入贡献。一种方法是首先获取单个项目的mrp总数并存储在一个变量中,然后获得所有项目的总mrp总和,并进行分割。但是这需要遍历单个项目

    1热度

    1回答

    我想写一个火花UDF,用0.0代替双字段的空值。我正在使用数据集API。这里的UDF: val coalesceToZero=udf((rate: Double) => if(Option(rate).isDefined) rate else 0.0) 这是基于我测试了以下功能将被精细的工作: def cz(value: Double): Double = if(Option(value).i

    0热度

    1回答

    我正在尝试完成“将数据框写入Hive表”的简单操作,下面是用Java编写的代码。我使用Cloudera VM时没有任何更改。 public static void main(String[] args) { String master = "local[*]"; SparkSession sparkSession = SparkSession .builder(

    0热度

    2回答

    我想使用Spark DataSet加载相当大的数据(比方说),其中的子集数据看起来如下所示。 |age|maritalStatus| name|sex| +---+-------------+--------+---+ | 35| M| Joanna| F| | 25| S|Isabelle| F| | 19| S| Andy| M| | 70| M| Robert| M

    -1热度

    2回答

    输入火花数据帧的 格式转换以dat​​aframe1 +-----+---------------+------------------------------------------------------------------------------------------------------------------+ |table| err_timestamp| err_me

    0热度

    2回答

    我有一个类型集的列,我使用spark数据集API的collect_set(),它返回包装数组的包装数组。我想从嵌套包装数组的所有值中获取单个数组。我怎样才能做到这一点? 例如, Cassandra表: Col1 {1,2,3} {1,5} 我正在使用Spark数据集API。 row.get(0)返回包装数组的包装数组。

    1热度

    1回答

    语境 我已经创建了一个函数,它接受一个Dataset[MyCaseClass],并返回它的列中的一个的元件的阵列 def columnToArray(ds: Dataset[MyCaseClass], columnName: String): Array[String] = { ds .select(columnName) .rdd .map(row =>