apache-spark

0热度

1回答

的区别我有一个表像这样来创建新的列： +-----+----+-------+-------+ |name | id | msg_a | msg_b | +-----+----+-------+-------+ | a| 3|[a,b,c]|[c] | | b| 5|[x,y,z]|[h,x,z]| | c| 7|[a,x,y]|[j,x,y]| +-----+----+-------

1热度

1回答

使用python进行火花流式传输时出错？

使用kafka_2.11-0.9.0.0和zookeeper-3.4.9。我已经开始了动物园管理员服务以及生产者和消费者。但是，当我运行火花提交命令它会引发错误。我使用下面的命令提交火花的工作：日志 spark-submit --packages org.apache.spark:spark-streaming-kafka_2.11:1.5.0 /usr/local/spark/example

0热度

2回答

星火斯卡拉：计数连续两个月

我有以下DataFrame例如： Provider Patient Date Smith John 2016-01-23 Smith John 2016-02-20 Smith John 2016-03-21 Smith John 2016-06-25 Smith Jill 2016-02-01 Smith Jill 2016-03-10 James Jil

0热度

2回答

将groupByKey转换为reduceByKey

我读了reducebyKey对大数据集来说是一个更好的选择，可以减少数据的混洗，并以这种方式提高性能。我想转换我的使用groupByKey。首先，它必须被转换为RDD： val linksNew = links.map(convertToRelationship) .flatMap(bidirRelationship) 链接是一个数据集和数据集的API没有reduceByKey。当使

0热度

2回答

以某种格式显示输出

我对Scala和Spark非常陌生，并且对于在输出文件中显示结果有一些疑问。其实，我在每个键关联到的目录列表（Map[Int, List<Double>]）地图，如： (2, List(x1,x2,x3), List(y1,y2,y3), ...). 我应该可以显示每个键的值列出的名单里，如： 2 x1,x2,x3 2 y1,y2,y3 1 z1,z2,z3 等等。当我使用s

0热度

1回答

如何添加一个数据帧转换为阵列作为另一个数据帧的一个元素基于一个键值

我一直试图添加一个数据帧的结果作为另一个数据帧中的新数组字段基于一个键值。例如，我有这样的数据帧我们称之为df1： root |-- DF_KEY: integer (nullable = false) |-- DF_DESC: string (nullable = false) +------------+--------------------+ |DF_KEY | DF_D

0热度

1回答

如何从表中传输数据集？

我必须使用spark将sql server表中的数据加载到本地文件系统中的csv中。以下是我使用的代码。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val jdbcSqlConnStr = "jdbc:sqlserver://HostIP:1433;databaseName=DBName;user=UserName;pass

0热度

1回答

如何编写嵌套查询？

我有如下表： +-----+---+----+ |type | t |code| +-----+---+----+ | A| 25| 11| | A| 55| 42| | B| 88| 11| | A|114| 11| | B|220| 58| | B|520| 11| +-----+---+----+ 而且我想要的东西： +-----+---+----+ |t1 | t2

0热度

1回答

Spark：显示日志消息

我正在使用scala应用程序和spark依赖项。这里我有什么 log4j.properties # Here we have defined root logger log4j.rootLogger=WARN,ERROR,R #Direct log messages to file log4j.appender.R=org.apache.log4j.RollingFileAppender

0热度

1回答

saveAsTable两端

我设置了一个火花纱线集群环境，并尝试火花SQL火花壳： spark-shell --master yarn --deploy-mode client --conf spark.yarn.archive=hdfs://hadoop_273_namenode_ip:namenode_port/spark-archive.zip 有一点要提的是Spark是在Windows 7.在火花壳成功启动，我执