spark-streaming

    -1热度

    1回答

    我是新的火花流,我不明白地图如何工作。我想从一个流排队一些问题后,我从一个构造函数,因此我写它传递的是: val data = inp.flatMap(_.split(",")) val points = data.map(_.toDouble) val queue: Queue[Point] = new Queue[Point] points.foreachRDD(rdd => { rd

    0热度

    1回答

    我正在使用Dstream(Spark Streaming)的Transform API对数据进行排序。 我正在使用netcat从TCP套接字读取数据。 继使用的代码行: myDStream.transform(rdd => rdd.sortByKey()) 无法找到函数sortByKey。任何人都可以请帮助这一步中的问题是什么?

    1热度

    1回答

    我是新来的火花。我使用结构化流式传输从kafka读取数据。 我可以在Scala中使用此代码读取数据: val data = spark.readStream .format("kafka") .option("kafka.bootstrap.servers", brokers) .option("subscribe", topics) .option

    1热度

    1回答

    我试图计算位数计算位数高效的算法(可近似具有一定精确度保证或错误边界)一个巨大的数据集(万亿字节的数据)。我如何有效地计算分位数。要求是 1) Can be computed efficiently (one-pass) or in a distributed way (merging) 2) High accuracy (or at least can be controlled) 3) C

    0热度

    2回答

    OS:红帽企业Linux服务器版本6.5 JRE:甲骨文1.8.0.144-B01 火花streaming_2.11:2.1.0 火花流,卡夫卡-0-10_2.11:2.1.0 Spark spark Kafka jar由spark-submit提交给standalone spark集群,并且运行良好几天。但是最近,我们发现没有为这个流生成新的工作,我们尝试重新启动作业,然后重新启动集群,流只停留

    0热度

    1回答

    我正在使用火花消费者(从spa‌​rk-streaming-kafka_2‌​.10版本1.6.0)。 我的火花发射器从kafka队列侦听5分区的消息。假设我停止了我的火花应用程序,然后根据我的配置读取最小或最大的偏移值。但是我的Saprk应用程序应该在我停止之后读取meesage。例如,我停止过程3.00PM,并在3.30PM启动火花发射器。然后,我想阅读下午3点至下午3点30分之间的所有消息。

    0热度

    1回答

    Spark和Scala的新手。试图达到以下。我的消息看起来像以下(钥匙,ID,版本,dataObject时) val transformedRDD = processedMessages.flatMap(message => { message.isProcessed match { case true => Some(message.key, message.id, mes

    0热度

    1回答

    我试图实现包含容错的Kafka应用程序的Spark Streaming。当我重新启动应用程序时,它会读取重新启动前已读取的消息,并且我的计算出错了。请帮我解决这个问题。 这是用Java编写的代码。 public static JavaStreamingContext createContextFunc() { SummaryOfTransactionsWithCheckpoints a

    0热度

    1回答

    我正在使用Java Spark API,对于KafkaUtils.createDirectStream,我想跟踪偏移量。 有一个名为fromOffset的参数,它记录了Kafka主题分区中的偏移量。对于第一次运行,我不知道将有多少个分区,那么如何设置此参数? 并且我是否需要在Kafka参数中设置“auto.offset.reset”? 如果是,它会影响我的代码从已知的偏移中恢复吗?

    0热度

    1回答

    优化在基于Yarn的群集上部署的Spark Jobs的最佳方式是什么? 。 寻找基于配置而非代码级别的更改。我的问题是经典设计级别的问题,应该使用什么方法来优化Spark Streaming或Spark SQL上开发的作业。