apache-spark

    0热度

    1回答

    的区别我有一个表像这样来创建新的列: +-----+----+-------+-------+ |name | id | msg_a | msg_b | +-----+----+-------+-------+ | a| 3|[a,b,c]|[c] | | b| 5|[x,y,z]|[h,x,z]| | c| 7|[a,x,y]|[j,x,y]| +-----+----+-------

    1热度

    1回答

    使用kafka_2.11-0.9.0.0和zookeeper-3.4.9。 我已经开始了动物园管理员服务以及生产者和消费者。但是,当我运行火花提交命令它会引发错误。 我使用下面的命令提交火花的工作:日志 spark-submit --packages org.apache.spark:spark-streaming-kafka_2.11:1.5.0 /usr/local/spark/example

    0热度

    2回答

    我有以下DataFrame例如: Provider Patient Date Smith John 2016-01-23 Smith John 2016-02-20 Smith John 2016-03-21 Smith John 2016-06-25 Smith Jill 2016-02-01 Smith Jill 2016-03-10 James Jil

    0热度

    2回答

    我读了reducebyKey对大数据集来说是一个更好的选择,可以减少数据的混洗,并以这种方式提高性能。我想转换我的使用groupByKey。首先,它必须被转换为RDD: val linksNew = links.map(convertToRelationship) .flatMap(bidirRelationship) 链接是一个数据集和数据集的API没有reduceByKey。当使

    0热度

    2回答

    我对Scala和Spark非常陌生,并且对于在输出文件中显示结果有一些疑问。 其实,我在每个键关联到的目录列表(Map[Int, List<Double>])地图,如: (2, List(x1,x2,x3), List(y1,y2,y3), ...). 我应该可以显示每个键的值列出的名单里,如: 2 x1,x2,x3 2 y1,y2,y3 1 z1,z2,z3 等等。 当我使用s

    0热度

    1回答

    我一直试图添加一个数据帧的结果作为另一个数据帧中的新数组字段基于一个键值。 例如,我有这样的数据帧我们称之为df1: root |-- DF_KEY: integer (nullable = false) |-- DF_DESC: string (nullable = false) +------------+--------------------+ |DF_KEY | DF_D

    0热度

    1回答

    我必须使用spark将sql server表中的数据加载到本地文件系统中的csv中。以下是我使用的代码。 val sqlContext = new org.apache.spark.sql.SQLContext(sc) val jdbcSqlConnStr = "jdbc:sqlserver://HostIP:1433;databaseName=DBName;user=UserName;pass

    0热度

    1回答

    我有如下表: +-----+---+----+ |type | t |code| +-----+---+----+ | A| 25| 11| | A| 55| 42| | B| 88| 11| | A|114| 11| | B|220| 58| | B|520| 11| +-----+---+----+ 而且我想要的东西: +-----+---+----+ |t1 | t2

    0热度

    1回答

    我正在使用scala应用程序和spark依赖项。 这里我有什么 log4j.properties # Here we have defined root logger log4j.rootLogger=WARN,ERROR,R #Direct log messages to file log4j.appender.R=org.apache.log4j.RollingFileAppender

    0热度

    1回答

    我设置了一个火花纱线集群环境,并尝试火花SQL火花壳: spark-shell --master yarn --deploy-mode client --conf spark.yarn.archive=hdfs://hadoop_273_namenode_ip:namenode_port/spark-archive.zip 有一点要提的是Spark是在Windows 7.在火花壳成功启动,我执