spark-streaming

-1热度

1回答

我是新的火花流，我不明白地图如何工作。我想从一个流排队一些问题后，我从一个构造函数，因此我写它传递的是： val data = inp.flatMap(_.split(",")) val points = data.map(_.toDouble) val queue: Queue[Point] = new Queue[Point] points.foreachRDD(rdd => { rd

0热度

1回答

sortByKey不适用于Dstream

我正在使用Dstream（Spark Streaming）的Transform API对数据进行排序。我正在使用netcat从TCP套接字读取数据。继使用的代码行： myDStream.transform（rdd => rdd.sortByKey（））无法找到函数sortByKey。任何人都可以请帮助这一步中的问题是什么？

1热度

1回答

Spark（2.2）：deserialise使用结构化流式处理来自卡夫卡的节俭记录

我是新来的火花。我使用结构化流式传输从kafka读取数据。我可以在Scala中使用此代码读取数据： val data = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", brokers) .option("subscribe", topics) .option

1热度

1回答

在TB级数据集

我试图计算位数计算位数高效的算法（可近似具有一定精确度保证或错误边界）一个巨大的数据集（万亿字节的数据）。我如何有效地计算分位数。要求是 1) Can be computed efficiently (one-pass) or in a distributed way (merging) 2) High accuracy (or at least can be controlled) 3) C

0热度

2回答

星火流挂卡夫卡在JavaStreamingContext.start，无火花工作创造

OS：红帽企业Linux服务器版本6.5 JRE：甲骨文1.8.0.144-B01 火花streaming_2.11：2.1.0 火花流，卡夫卡-0-10_2.11：2.1.0 Spark spark Kafka jar由spark-submit提交给standalone spark集群，并且运行良好几天。但是最近，我们发现没有为这个流生成新的工作，我们尝试重新启动作业，然后重新启动集群，流只停留

0热度

1回答

Apache Spark Time基于Kafka off set

我正在使用火花消费者（从spa‌rk-streaming-kafka_2‌.10版本1.6.0）。我的火花发射器从kafka队列侦听5分区的消息。假设我停止了我的火花应用程序，然后根据我的配置读取最小或最大的偏移值。但是我的Saprk应用程序应该在我停止之后读取meesage。例如，我停止过程3.00PM，并在3.30PM启动火花发射器。然后，我想阅读下午3点至下午3点30分之间的所有消息。

0热度

1回答

星火群组rdd由配对RDD上的钥匙和群组组成，并从每个群组中挑选最新的

Spark和Scala的新手。试图达到以下。我的消息看起来像以下（钥匙，ID，版本，dataObject时） val transformedRDD = processedMessages.flatMap(message => { message.isProcessed match { case true => Some(message.key, message.id, mes

0热度

1回答

Spark Streaming检查点失败后读取

我试图实现包含容错的Kafka应用程序的Spark Streaming。当我重新启动应用程序时，它会读取重新启动前已读取的消息，并且我的计算出错了。请帮我解决这个问题。这是用Java编写的代码。 public static JavaStreamingContext createContextFunc() { SummaryOfTransactionsWithCheckpoints a

0热度

1回答

Spark Streaming Kafka初始偏移量

我正在使用Java Spark API，对于KafkaUtils.createDirectStream，我想跟踪偏移量。有一个名为fromOffset的参数，它记录了Kafka主题分区中的偏移量。对于第一次运行，我不知道将有多少个分区，那么如何设置此参数？并且我是否需要在Kafka参数中设置“auto.offset.reset”？如果是，它会影响我的代码从已知的偏移中恢复吗？

0热度

1回答

|性能调整和优化

优化在基于Yarn的群集上部署的Spark Jobs的最佳方式是什么？。寻找基于配置而非代码级别的更改。我的问题是经典设计级别的问题，应该使用什么方法来优化Spark Streaming或Spark SQL上开发的作业。