apache-spark-sql

0热度

1回答

Scala/Spark：当我使用广播在本地和群集中运行Spark程序时，为什么会得到不同的结果？

我有一个数据帧，我想获得以前的分区的价值，我用broadcast.This是我的代码： val arr = Array((1, 1,1), (7, 2,1), (3, 3,2), (5, 4,2), (7, 5,3), (9, 6,3), (7, 7,4), (9, 8,4)) var rdd = sc.parallelize(arr, 4) val bro=sc.broadc

0热度

1回答

如何获取数据帧中的延迟列值？

我有传感器数据，传感器的数据格式是（值，时间戳）。我把传感器值到数据帧，数据框的值是： +-----+-------------+ |value| timestamp| +-----+-------------+ | 1|1493626740000| | 7|1493626741000| | 3|1493626743000| | 5|1493626744000| | 7|149362

0热度

1回答

如何将RDD中的每一行与对方相乘？

我有一个RDD这是类似的， CELL-ID | COUNT -------------- abcd 10 DEF 20 ghi 15 我需要一个RDD与 CELL-ID-1 | CELL-ID-2 | PRODUCT -------------- abcd DEF 200 abcd ghi 150 DEF abcd 200 DEF ghi 300

-1热度

2回答

使用SQL表达式在Spark中删除重复的列

我觉得这个问题类似于其他一些问题，但它没有被问到。在Spark中，我们如何运行带有重复列的SQL查询？例如，在火花 select a.* from a left outer join select b.* from b on a.id = b.id 运行的SQL查询我怎么能删除在这种情况下重复列b.id？我知道我们可以在Spark中使用额外的步骤，例如提供alas或重命

1热度

1回答

使用火花数据框进行字段数据验证

我有一堆列，样本如我的数据显示如下所示。我需要检查列的错误，并将不得不生成两个输出文件。我正在使用Apache Spark 2.0，我希望以有效的方式做到这一点。 Schema Details --------------- EMPID - (NUMBER) ENAME - (STRING,SIZE(50)) GENDER - (STRING,SIZE(1)) Data ----

2热度

2回答

通过在现有行上执行GROUP BY来更新表SPARK - SQL？

我使用MySQL作为存储引擎从Spark SQL中保存表。我的表看起来像 +-------------+----------+ | count| date| +-------------+----------+ | 72|2017-09-08| | 84|2017-09-08| +-------------+----------+ 我想通过使用GROUP BY添加计数并删

1热度

1回答

根据Spark中的确切和部分匹配筛选器列表

嗨，我是Spark的新手，我有一个场景，其中有两个关键字列表，关键字可以是单个单词或短语。我必须过滤列表中出现的关键字（完全匹配），或者即使在列表2中找到列表1中的子字符串。例如， PosList= List ("Abc","Spark is awesome","Scala is powerful") Neglist= List ("Powerful","Abc","Xyz") Outpu

1热度

3回答

将行转换为spark scala中的映射

我有一行数据框，我想将其转换为Map [String，Any]，它将列名映射到该列的行中的值。有没有简单的方法来做到这一点？我是做字符串值像 def rowToMap(row:Row): Map[String, String] = { row.schema.fieldNames.map(field => field -> row.getAs[String](field)).toMap }

-3热度

1回答

使用Apache-Spark-SQL访问数据库

嗨，我是一名使用java的apache spark的新学员这是一种正确的方法吗？这段代码正在工作，但性能非常缓慢，我不知道哪一个是访问每个循环数据的最佳方法。 Dataset<Row> javaRDD = sparkSession.read().jdbc(dataBase_url, "sample", properties); javaRDD.toDF().registerTempTabl

2热度

1回答

将纳秒级的字符串转换为火花中的时间戳

有没有办法将纳秒级的时间戳值转换为火花中的时间戳。我从csv文件获得输入，并且timstamp值的格式为 12-12-2015 14:09:36.992415+01:00。这是我试过的代码。 val date_raw_data = List((1, "12-12-2015 14:09:36.992415+01:00")) val dateraw_df = sc.parallelize(date