spark-streaming

1热度

1回答

我希望通过窗口期执行结构化流式聚合。鉴于以下数据模式。目标是根据用户最近发生的事件进行过滤。然后汇总每个位置的每种事件类型的计数。 time location user type 1 A 1 one 2 A 1 two 1 B 2 one 2 B 2 one 1 A 3 two 1 A 4 one 输出示例：类似如下： val

1热度

1回答

来自Kafka主题的Spark Streaming抛出偏移超出范围，无法重新启动流

我在Spark 2.1.1上运行流式作业，轮询Kafka 0.10。我正在使用Spark KafkaUtils类创建一个DStream，并且所有内容都正常工作，直到由于保留策略导致数据超出主题。如果任何数据超出了主题，我会停止工作做出一些更改，但我得到的错误表明我的偏移量超出范围。我做了很多研究，包括查看火花源代码，并且我看到很多评论，如本期的评论：SPARK-19680 - 基本上说数据不应该丢

0热度

2回答

如何使用上次时间戳从数据框中选择不同的记录

1热度

3回答

Kafka结构化流式检查点

我试图从Kafka做结构化流式处理。我打算将检查点存储在HDFS中。我读了一个cloudera博客，建议不要在HDFS中为Spark流存储检查点。结构流式检查点是同样的问题吗？ https://blog.cloudera.com/blog/2017/06/offset-management-for-apache-kafka-with-apache-spark-streaming/。在结构化流媒体

0热度

1回答

蜂巢表中的Spark流是可能的吗？

我有一个用例我们的Java框架，从室壁运动分析实时数据蜂巢表中每半小时一班。我需要访问这个配置表格，并做一些接近实时的处理。一小时延迟是好的，因为我没有权限访问Kinesis流。一旦处理完成在spark（pyspark优先），我必须创建一个新的kinesys流并推送数据。然后，我将使用Splunk并将其拉近实时。问题是，任何人使用python完成从蜂巢的火花流？我必须做一个POC，然后做

0热度

3回答

来自Kafka的Spark流式传输和Avro格式的HDFS写入

我基本上想要使用来自Kafka的数据并将其写入HDFS。但发生的情况是，它不是在hdfs中编写任何文件。它会创建空文件。而且请指导我，如果我想写在HDF格式的HDFS我如何修改代码。为了简单起见，我写了本地C盘。 import org.apache.spark.SparkConf import org.apache.kafka.common.serialization.StringDeser

0热度

1回答

解释Spark结构化流处理执行程序与Kafka分区之间的映射

我已经在具有4个分区的Kafka主题上部署了一个包含4名工作人员的结构化流。我假设将会有4个工作人员部署到4个分区，在工作人员< - >分区之间有一对一的映射。但是，事实并非如此。所有分区都由同一个Executor提供服务。我通过检查线程ID并登录执行程序来确认这一点。是否有任何文件显示卡夫卡分区和Spark结构化流之间的相关性。另外，有没有我们可以调整的旋钮。

1热度

1回答

如何在Spark流上创建停止条件？

我想使用火花流从HDFS读取数据。我们的想法是，另一个程序会不断上传新文件到HDFS目录，我的spark串流作业将处理这个目录。但是，我也想有一个结束条件。也就是说，程序上传文件到HDFS的方式可以通知Spark流程程序，它会完成所有文件的上传。举个简单的例子，从Here开始。代码如下所示。假设另一个程序正在上传这些文件，那么如何通过该程序（不要求我们按CTRL + C）在火花流程程序中以编程方

0热度

1回答

akka流与火花流：消息不传递给演员;得到死信

我是新来的阿卡流。我从github运行下面的例子。但是，向“Helloer”actor发送的消息不会在输出控制台中接收和显示。 StreamingApp.scala import _root_.akka.actor.{ Actor, Props } import org.apache.spark._ import org.apache.spark.streaming._ import org

0热度

1回答

通过RESTful API查询SPARK作业生成的数据

我很新奇。我用SPARK工作制作了一个具有大约420MB数据的文件。我有一个Java应用程序，它只需要根据特定条件从该文件并发查询数据并以json格式返回数据。到目前为止，我已经找到了SPARK 2个RESTful API中，但它们只用于远程提交SPARK的工作和管理SPARK环境， 1)Livy 2)Spark job-server 如果可用，什么是做同样的（除了数据库）其他选择吗？