apache-spark-sql

0热度

1回答

我们有一个Spark版本2.0的MapR群集我们试图测量当前在TEZ引擎上运行的Hive查询的性能差异，然后在Spark-sql上运行它，只需编写在.hql文件中查询sql查询，然后通过shell文件调用它。查询中包含很多Join，这些Join肯定会创建多个阶段，并且在这种情况下将会发生混洗，那么最合适的选择是什么？这是真的，数据集，星火比Dataframes较慢像GROUPBY，最大值，最

0热度

2回答

火花使用键列

0热度

1回答

相当于SparkSQL

MySQL的'秀processlist`的是否有Apache SparkSQLMySQL的命令show processlist;的等效？

0热度

1回答

Apache SparkSQL中的``kill query``的等价物？

Apache SparkSQL中是否有相当于MySQL的命令kill query（定义为here）？谢谢！

0热度

1回答

如何添加一个数据帧转换为阵列作为另一个数据帧的一个元素基于一个键值

我一直试图添加一个数据帧的结果作为另一个数据帧中的新数组字段基于一个键值。例如，我有这样的数据帧我们称之为df1： root |-- DF_KEY: integer (nullable = false) |-- DF_DESC: string (nullable = false) +------------+--------------------+ |DF_KEY | DF_D

0热度

1回答

如何从表中传输数据集？

我必须使用spark将sql server表中的数据加载到本地文件系统中的csv中。以下是我使用的代码。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val jdbcSqlConnStr = "jdbc:sqlserver://HostIP:1433;databaseName=DBName;user=UserName;pass

0热度

1回答

如何编写嵌套查询？

我有如下表： +-----+---+----+ |type | t |code| +-----+---+----+ | A| 25| 11| | A| 55| 42| | B| 88| 11| | A|114| 11| | B|220| 58| | B|520| 11| +-----+---+----+ 而且我想要的东西： +-----+---+----+ |t1 | t2

0热度

1回答

saveAsTable两端

我设置了一个火花纱线集群环境，并尝试火花SQL火花壳： spark-shell --master yarn --deploy-mode client --conf spark.yarn.archive=hdfs://hadoop_273_namenode_ip:namenode_port/spark-archive.zip 有一点要提的是Spark是在Windows 7.在火花壳成功启动，我执

-1热度

2回答

如何将JSON的RDD转换为Dataframe？

我有一个已经从一些json创建的rdd，rdd中的每个记录都包含键/值对。我RDD的样子： myRdd.foreach(println) {"sequence":89,"id":8697344444103393,"trackingInfo":{"location":"Browse","row":0,"trackId":14170286,"listId":"cd7c2c7a-00f6

-1热度

1回答

如何强制spark以避免数据集重新计算？

我有一个数据集是从卡桑德拉火花加载。加载这个数据集后，我将从cassandra中删除一些项目，但我希望我的数据集作为下一次计算的第一个数据集。我用persist(DISK_ONLY)来解决它，但它似乎尽力而为。如何强制使用火花以避免重新计算？例如： val dataset:Dataset[Int] = ??? // something from cassandra dataset.persi