apache-spark-sql

    0热度

    1回答

    我们有一个Spark版本2.0的MapR群集 我们试图测量当前在TEZ引擎上运行的Hive查询的性能差异,然后在Spark-sql上运行它,只需编写在.hql文件中查询sql查询,然后通过shell文件调用它。 查询中包含很多Join,这些Join肯定会创建多个阶段,并且在这种情况下将会发生混洗,那么最合适的选择是什么? 这是真的,数据集,星火比Dataframes较慢像GROUPBY,最大值,最

    0热度

    2回答

    我想实现扁平化利用火花/斯卡拉API记录的逻辑拉平记录。我正在尝试使用地图功能。 能否请你帮我解决这个问题最简单的方法? 假设,对于一个给定钥匙我需要有3个过程代码 输入数据帧 - > Keycol|processcode John |1 Mary |8 John |2 John |4 Mary |1 Mary |7 ================= =============

    0热度

    1回答

    MySQL的'秀processlist`的是否有Apache SparkSQLMySQL的命令show processlist;的等效?

    0热度

    1回答

    Apache SparkSQL中是否有相当于MySQL的命令kill query(定义为here)?谢谢!

    0热度

    1回答

    我一直试图添加一个数据帧的结果作为另一个数据帧中的新数组字段基于一个键值。 例如,我有这样的数据帧我们称之为df1: root |-- DF_KEY: integer (nullable = false) |-- DF_DESC: string (nullable = false) +------------+--------------------+ |DF_KEY | DF_D

    0热度

    1回答

    我必须使用spark将sql server表中的数据加载到本地文件系统中的csv中。以下是我使用的代码。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val jdbcSqlConnStr = "jdbc:sqlserver://HostIP:1433;databaseName=DBName;user=UserName;pass

    0热度

    1回答

    我有如下表: +-----+---+----+ |type | t |code| +-----+---+----+ | A| 25| 11| | A| 55| 42| | B| 88| 11| | A|114| 11| | B|220| 58| | B|520| 11| +-----+---+----+ 而且我想要的东西: +-----+---+----+ |t1 | t2

    0热度

    1回答

    我设置了一个火花纱线集群环境,并尝试火花SQL火花壳: spark-shell --master yarn --deploy-mode client --conf spark.yarn.archive=hdfs://hadoop_273_namenode_ip:namenode_port/spark-archive.zip 有一点要提的是Spark是在Windows 7.在火花壳成功启动,我执

    -1热度

    2回答

    我有一个已经从一些json创建的rdd,rdd中的每个记录都包含键/值对。我RDD的样子: myRdd.foreach(println) {"sequence":89,"id":8697344444103393,"trackingInfo":{"location":"Browse","row":0,"trackId":14170286,"listId":"cd7c2c7a-00f6

    -1热度

    1回答

    我有一个数据集是从卡桑德拉火花加载。加载这个数据集后,我将从cassandra中删除一些项目,但我希望我的数据集作为下一次计算的第一个数据集。我用persist(DISK_ONLY)来解决它,但它似乎尽力而为。 如何强制使用火花以避免重新计算? 例如: val dataset:Dataset[Int] = ??? // something from cassandra dataset.persi