spark-streaming

    0热度

    1回答

    我的数据集有一个名为列“键(串),价值(长)” 像prefix.20171012.111.2222列项的值,和列值的9999价值 我想将数据集转换成一个新的数据集,将colmun键拆分为像“day,rt,item_id,value”这样的其他数据集。 如何做到这一点,非常感谢

    0热度

    1回答

    如何保存卡夫卡星火消息流数据帧到单个文件 我已经制定,这将消耗使用Kafka-星火流过程中的信息的应用程序。 一旦收到数据,它就会转换成数据帧。 然后流式数据帧被保存为文本文件,这里数据帧被保存到每个文件中,用于每个kafka流消息,下面是我用于将数据保存为文本文件的代码,这是保存数据为每条消息添加多个文本文件。 DF.coalesce(1).write.format("com.databrick

    0热度

    1回答

    我们使用结构星火与包火花eventhubs一起流读取来自Azure的IoTHub消息。在某些结果中,Spark检查点不能按我们的要求工作。因此,我们希望能够手动设置起始偏移量。 我们的计划是手动分配的偏移量在IoThub参数映射,方法是设置: “eventhubs.filter.offset” - > { “partitionKey1”: “偏移1”,...}或 “eventhubs.starti

    0热度

    1回答

    我有一个小场景,我读取文本文件并根据日期计算平均值并将总结存储到Mysql数据库中。 以下是代码 val repo_sum = joined_data.map(SensorReport.generateReport) repo_sum.show() --- STEP 1 repo_sum.write.mode(SaveMode.Overwrite).jdbc(url,

    0热度

    1回答

    我想从套接字流中获取每条记录。我希望记录是来自行的字符串数据类型。如何在python中编写代码?谢谢! 模型= pipeline.PipelineModel.read()。负载(model_path) SC = spark.sparkContext SSC =的StreamingContext(SC,1) 线= ssc.socketTextStream(sys.argv中[ 1],INT(sys.

    0热度

    1回答

    我已经编写了一个非常简单的python脚本来测试我的火花流的想法,并计划在我的本地机器上运行它来混乱一点点。下面是一个命令行: spark-submit spark_streaming.py localhost 9999 但终端丢给我一个错误: Error executing Jupyter command '<the/spark_streaming.py/file/path>': [Errn

    1热度

    1回答

    我想使用TCP套接字创建和发送数据,以便我可以将它用作Spark结构化数据流的数据流源。我正在使用Windows操作系统。我尝试使用腻子SSH到我的本地主机,但这是要求登录名和密码,我不知道该给什么。 任何人都可以请帮我实现这一点。 在此先感谢!

    1热度

    1回答

    使用kafka_2.11-0.9.0.0和zookeeper-3.4.9。 我已经开始了动物园管理员服务以及生产者和消费者。但是,当我运行火花提交命令它会引发错误。 我使用下面的命令提交火花的工作:日志 spark-submit --packages org.apache.spark:spark-streaming-kafka_2.11:1.5.0 /usr/local/spark/example

    0热度

    1回答

    案例 试图建立一些代码,需要卡夫卡库,会被部署到HDP平台。构建成功,但在运行时抱怨无法找到类。在HDP平台上查找Kafka版本会发现类似0.10.0.2.5.3.16-1的内容,对mvn的快速检查显示此版本不存在此类Kafka库。最近的版本是我正在使用的0.10.0.2.5.3.42-1。 症状 运行时错误这不能不说类或方法无法找到,例如kafka.javaapi.consumer.Simple

    0热度

    1回答

    我目前正在开发Spark(v 2.2.0)Streaming应用程序,并且遇到Spark似乎在整个集群中分配工作的问题。此应用程序使用客户端模式提交给AWS EMR,因此有一个驱动程序节点和一对工作节点。下面是神经节的截图,显示在过去一小时内存使用: Ganglia Screenshot 最左边的节点是“主”或“驱动程序”节点,另外两个是工作节点。所有三个节点的内存使用率都会出现峰值,这些峰值与通