spark-streaming

0热度

1回答

我的数据集有一个名为列“键（串），价值（长）” 像prefix.20171012.111.2222列项的值，和列值的9999价值我想将数据集转换成一个新的数据集，将colmun键拆分为像“day，rt，item_id，value”这样的其他数据集。如何做到这一点，非常感谢

0热度

1回答

如何保存卡夫卡星火消息流数据帧到单个文件

如何保存卡夫卡星火消息流数据帧到单个文件我已经制定，这将消耗使用Kafka-星火流过程中的信息的应用程序。一旦收到数据，它就会转换成数据帧。然后流式数据帧被保存为文本文件，这里数据帧被保存到每个文件中，用于每个kafka流消息，下面是我用于将数据保存为文本文件的代码，这是保存数据为每条消息添加多个文本文件。 DF.coalesce(1).write.format("com.databrick

0热度

1回答

不能设置起始偏移量火花eventhubs

我们使用结构星火与包火花eventhubs一起流读取来自Azure的IoTHub消息。在某些结果中，Spark检查点不能按我们的要求工作。因此，我们希望能够手动设置起始偏移量。我们的计划是手动分配的偏移量在IoThub参数映射，方法是设置： “eventhubs.filter.offset” - > { “partitionKey1”： “偏移1”，...}或 “eventhubs.starti

0热度

1回答

插入到Mysql数据库后更新数据集数据

我有一个小场景，我读取文本文件并根据日期计算平均值并将总结存储到Mysql数据库中。以下是代码 val repo_sum = joined_data.map(SensorReport.generateReport) repo_sum.show() --- STEP 1 repo_sum.write.mode(SaveMode.Overwrite).jdbc(url,

0热度

1回答

如何从socketTextStream获取字符串格式的记录

我想从套接字流中获取每条记录。我希望记录是来自行的字符串数据类型。如何在python中编写代码？谢谢！模型= pipeline.PipelineModel.read（）。负载（model_path） SC = spark.sparkContext SSC =的StreamingContext（SC，1）线= ssc.socketTextStream（sys.argv中[ 1]，INT（sys.

0热度

1回答

Spark-submit无法找到本地文件

我已经编写了一个非常简单的python脚本来测试我的火花流的想法，并计划在我的本地机器上运行它来混乱一点点。下面是一个命令行： spark-submit spark_streaming.py localhost 9999 但终端丢给我一个错误： Error executing Jupyter command '<the/spark_streaming.py/file/path>': [Errn

1热度

1回答

如何在Spark中使用TCP套接字发送数据Spark结构化数据流

我想使用TCP套接字创建和发送数据，以便我可以将它用作Spark结构化数据流的数据流源。我正在使用Windows操作系统。我尝试使用腻子SSH到我的本地主机，但这是要求登录名和密码，我不知道该给什么。任何人都可以请帮我实现这一点。在此先感谢！

1热度

1回答

使用python进行火花流式传输时出错？

使用kafka_2.11-0.9.0.0和zookeeper-3.4.9。我已经开始了动物园管理员服务以及生产者和消费者。但是，当我运行火花提交命令它会引发错误。我使用下面的命令提交火花的工作：日志 spark-submit --packages org.apache.spark:spark-streaming-kafka_2.11:1.5.0 /usr/local/spark/example

0热度

1回答

卡夫卡的NoSuchMethodError上HDP平台

案例试图建立一些代码，需要卡夫卡库，会被部署到HDP平台。构建成功，但在运行时抱怨无法找到类。在HDP平台上查找Kafka版本会发现类似0.10.0.2.5.3.16-1的内容，对mvn的快速检查显示此版本不存在此类Kafka库。最近的版本是我正在使用的0.10.0.2.5.3.42-1。症状运行时错误这不能不说类或方法无法找到，例如kafka.javaapi.consumer.Simple

0热度

1回答

火花内存使用集中在驱动程序/主

我目前正在开发Spark（v 2.2.0）Streaming应用程序，并且遇到Spark似乎在整个集群中分配工作的问题。此应用程序使用客户端模式提交给AWS EMR，因此有一个驱动程序节点和一对工作节点。下面是神经节的截图，显示在过去一小时内存使用： Ganglia Screenshot 最左边的节点是“主”或“驱动程序”节点，另外两个是工作节点。所有三个节点的内存使用率都会出现峰值，这些峰值与通