apache-spark-sql

0热度

1回答

我的数据是这样 ID | Race | start | duration -------|---------| ------| --------- 234 | 1010 | turtle| 100 235 | 1010 | turtle| 101 236 | 1010 | turtle| 99 237 | 1010 | rabbit| 199 238 | 1010 | rabbit|

1热度

1回答

如何在pyspark数据框中将groupby转换为reducebykey？

我已经用group和by函数写了pyspark代码。由于团队的影响，我感觉性能受到影响。相反，我想使用reducebykey。但我对这个领域很陌生。请找我的情况之下，第1步：阅读蜂巢表连接查询数据直通sqlcontext，并存储在数据帧第二步：输入总列数是15.在这5个重点领域和其余是数字值。第3步：除了上面的输入列之外，还有几列需要从数字列导出。几列有默认值。第4步：我已经使用了grou

0热度

3回答

如何使用Spark 2遮罩列？

我有一些表格，我需要掩盖它的一些列。要屏蔽的列因表而不同，我正在阅读application.conf文件中的那些列。例如，对于员工表如下图所示 +----+------+-----+---------+ | id | name | age | address | +----+------+-----+---------+ | 1 | abcd | 21 | India | +----+-

0热度

1回答

在Zeppelin中添加spark-csv依赖关系正在创建网络错误

在Zeppelin中添加spark-csv依赖关系正在创建网络错误。我去了Zeppelin的Spark解释器，并添加了Spark-csv依赖项。 com.databricks:spark-csv_2.10:1.2.0。我也将其添加到参数选项中。我重新开始的Zeppelin和运行以下命令： import org.apache.spark.sql.SQLContext val sqlConte

0热度

1回答

Spark数据帧将字符串转换为时间戳 - 为空值返回空值

0热度

1回答

Apache Spark JDBC DataFrame计数问题

我正在使用Spark JDBC从MS SQL数据库读取数据，但我得到了一些奇怪的结果。例如，下面是我的代码来从我的MS SQL数据库中读取记录。请注意，我正在读取数据的表格不断插入记录。 //Extract Data from JDBC source val jdbcTable = sqlContext.read.format("jdbc").options( Map(

1热度

1回答

Spark和Metastore关系

我知道的一个事实，即蜂巢Metastore用于存储我们在HIVE创建但为什么电火花所需要Metastore表的元数据，什么是Metastore之间的默认关系和Spark 不metasore正在被spark SQL使用，如果是的话，这是为了存储数据框元数据？为什么默认情况下spark会检查Metastore连接，即使iam不使用任何sql库？

-1热度

2回答

从具有N个元素的schemaDetails的N个元素的MAP中创建数据框

如何使用schemanames中提到的模式细节将input5数据格式转换为DataFrame？转换应该是动态的，而不使用Row(r(0),r(1)) - 输入和模式中的列数可以增加或减少，因此代码应该是动态的。 case class Entry(schemaName: String, updType: String, ts: Long, row: Map[String, String]) v

1热度

1回答

联盟星火SQL查询从数据集

我使用的Java API的Apache星火删除重复的，我有两个数据集& B. 这些两个模式是相同的：******中国，姓名，年龄，地址有两个有******中国作为共同的数据集一个纪录，但这一纪录其他列不同我运行下面这两个数据集的SQL查询（通过注册这些临时表）： A.createOrReplaceTempView("A"); B.createOrReplaceTempView("B");

1热度

1回答

[Py] Spark SQL：使用框架的输入行限制窗口的每个框架

我想基于当前输入行限制聚合函数使用窗口框架中的哪些行。例如，给定一个数据帧df和窗口w，我希望能够做一些事情，如： df2 = df.withColumn("foo", first(col("bar").filter(...)).over(w)) 其中.filter将基于帧的输入行的当前窗口帧删除行。我的具体使用情况如下：给定一个数据帧df +-----+--+--+ |group|n1|