spark-streaming

    1热度

    1回答

    我希望通过窗口期执行结构化流式聚合。鉴于以下数据模式。目标是根据用户最近发生的事件进行过滤。然后汇总每个位置的每种事件类型的计数。 time location user type 1 A 1 one 2 A 1 two 1 B 2 one 2 B 2 one 1 A 3 two 1 A 4 one 输出示例: ​​ 类似如下: val

    1热度

    1回答

    我在Spark 2.1.1上运行流式作业,轮询Kafka 0.10。我正在使用Spark KafkaUtils类创建一个DStream,并且所有内容都正常工作,直到由于保留策略导致数据超出主题。如果任何数据超出了主题,我会停止工作做出一些更改,但我得到的错误表明我的偏移量超出范围。我做了很多研究,包括查看火花源代码,并且我看到很多评论,如本期的评论:SPARK-19680 - 基本上说数据不应该丢

    0热度

    2回答

    我有数据框。我需要根据每个Id的updateTableTimestamp表中最新的记录。 df.show() +--------------------+-----+-----+--------------------+ | Description| Name| id |updateTableTimestamp| +--------------------+-----+-----+----

    1热度

    3回答

    我试图从Kafka做结构化流式处理。我打算将检查点存储在HDFS中。我读了一个cloudera博客,建议不要在HDFS中为Spark流存储检查点。结构流式检查点是同样的问题吗? https://blog.cloudera.com/blog/2017/06/offset-management-for-apache-kafka-with-apache-spark-streaming/。 在结构化流媒体

    0热度

    1回答

    我有一个用例 我们的Java框架,从室壁运动分析实时数据蜂巢表中每半小时一班。 我需要访问这个配置表格,并做一些接近实时的处理。一小时延迟是好的,因为我没有权限访问Kinesis流。 一旦处理完成在spark(pyspark优先),我必须创建一个新的kinesys流并推送数据。 然后,我将使用Splunk并将其拉近实时。 问题是,任何人使用python完成从蜂巢的火花流?我必须做一个POC,然后做

    0热度

    3回答

    我基本上想要使用来自Kafka的数据并将其写入HDFS。但发生的情况是,它不是在hdfs中编写任何文件。它会创建空文件。 而且请指导我,如果我想写在HDF格式的HDFS我如何修改代码。 为了简单起见,我写了本地C盘。 import org.apache.spark.SparkConf import org.apache.kafka.common.serialization.StringDeser

    0热度

    1回答

    我已经在具有4个分区的Kafka主题上部署了一个包含4名工作人员的结构化流。 我假设将会有4个工作人员部署到4个分区,在工作人员< - >分区之间有一对一的映射。 但是,事实并非如此。所有分区都由同一个Executor提供服务。我通过检查线程ID并登录执行程序来确认这一点。 是否有任何文件显示卡夫卡分区和Spark结构化流之间的相关性。另外,有没有我们可以调整的旋钮。

    1热度

    1回答

    我想使用火花流从HDFS读取数据。我们的想法是,另一个程序会不断上传新文件到HDFS目录,我的spark串流作业将处理这个目录。但是,我也想有一个结束条件。也就是说,程序上传文件到HDFS的方式可以通知Spark流程程序,它会完成所有文件的上传。 举个简单的例子,从Here开始。代码如下所示。假设另一个程序正在上传这些文件,那么如何通过该程序(不要求我们按CTRL + C)在火花流程程序中以编程方

    0热度

    1回答

    我是新来的阿卡流。我从github运行下面的例子。但是,向“Helloer”actor发送的消息不会在输出控制台中接收和显示。 StreamingApp.scala import _root_.akka.actor.{ Actor, Props } import org.apache.spark._ import org.apache.spark.streaming._ import org

    0热度

    1回答

    我很新奇。我用SPARK工作制作了一个具有大约420MB数据的文件。我有一个Java应用程序,它只需要根据特定条件从该文件并发查询数据并以json格式返回数据。 到目前为止,我已经找到了SPARK 2个RESTful API中,但它们只用于远程提交SPARK的工作和管理SPARK环境, 1)Livy 2)Spark job-server 如果可用,什么是做同样的(除了数据库)其他选择吗?