apache-spark-sql

    0热度

    1回答

    我的数据是这样 ID | Race | start | duration -------|---------| ------| --------- 234 | 1010 | turtle| 100 235 | 1010 | turtle| 101 236 | 1010 | turtle| 99 237 | 1010 | rabbit| 199 238 | 1010 | rabbit|

    1热度

    1回答

    我已经用group和by函数写了pyspark代码。由于团队的影响,我感觉性能受到影响。相反,我想使用reducebykey。但我对这个领域很陌生。请找我的情况之下, 第1步:阅读蜂巢表连接查询数据直通sqlcontext,并存储在数据帧 第二步:输入总列数是15.在这5个重点领域和其余是数字值。 第3步:除了上面的输入列之外,还有几列需要从数字列导出。几列有默认值。 第4步:我已经使用了grou

    0热度

    3回答

    我有一些表格,我需要掩盖它的一些列。要屏蔽的列因表而不同,我正在阅读application.conf文件中的那些列。 例如,对于员工表如下图所示 +----+------+-----+---------+ | id | name | age | address | +----+------+-----+---------+ | 1 | abcd | 21 | India | +----+-

    0热度

    1回答

    在Zeppelin中添加spark-csv依赖关系正在创建网络错误。 我去了Zeppelin的Spark解释器,并添加了Spark-csv依赖项。 com.databricks:spark-csv_2.10:1.2.0。我也将其添加到参数选项中。 我重新开始的Zeppelin和运行以下命令: import org.apache.spark.sql.SQLContext val sqlConte

    0热度

    1回答

    我有一个Spark应用程序,需要从字符串转换为时间戳,下面是我的代码。 val df = sc.parallelize(Seq("09/18/2017","")).toDF("sDate") +----------+ | sDate| +----------+ |09/18/2017| | | +----------+ val ts = unix_timestamp($"sDa

    0热度

    1回答

    我正在使用Spark JDBC从MS SQL数据库读取数据,但我得到了一些奇怪的结果。 例如,下面是我的代码来从我的MS SQL数据库中读取记录。 请注意,我正在读取数据的表格不断插入记录。 //Extract Data from JDBC source val jdbcTable = sqlContext.read.format("jdbc").options( Map(

    1热度

    1回答

    我知道的一个事实,即蜂巢Metastore用于存储我们在HIVE创建但为什么电火花所需要Metastore表的元数据,什么是Metastore之间的默认关系和Spark 不metasore正在被spark SQL使用,如果是的话,这是为了存储数据框元数据? 为什么默认情况下spark会检查Metastore连接,即使iam不使用任何sql库?

    -1热度

    2回答

    如何使用schemanames中提到的模式细节将input5数据格式转换为DataFrame? 转换应该是动态的,而不使用Row(r(0),r(1)) - 输入和模式中的列数可以增加或减少,因此代码应该是动态的。 case class Entry(schemaName: String, updType: String, ts: Long, row: Map[String, String]) v

    1热度

    1回答

    我使用的Java API的Apache星火删除重复的,我有两个数据集& B. 这些两个模式是相同的:******中国,姓名,年龄,地址 有两个有******中国作为共同的数据集一个纪录,但这一纪录其他列不同 我运行下面这两个数据集的SQL查询(通过注册这些临时表): A.createOrReplaceTempView("A"); B.createOrReplaceTempView("B");

    1热度

    1回答

    我想基于当前输入行限制聚合函数使用窗口框架中的哪些行。例如,给定一个数据帧df和窗口w,我希望能够做一些事情,如: df2 = df.withColumn("foo", first(col("bar").filter(...)).over(w)) 其中.filter将基于帧的输入行的当前窗口帧删除行。 我的具体使用情况如下:给定一个数据帧df +-----+--+--+ |group|n1|