spark-streaming

    1热度

    1回答

    在我的Spark应用程序中,我有很多I/O操作,比如codis,hbase等。我想确保每个执行程序中都有一个连接池,我该如何执行此操作优雅? 现在,我分散执行一些静态类,这对管理不好。如何将它们集中到一个像xxContext这样的类,一些类似SparkContext的类中,并且需要我播放它?我知道广播大型只读数据集是很好的,但这些连接池如何? Java或scala都可以接受。

    0热度

    1回答

    这是一个在YARN集群模式下运行的Spark Streaming应用程序,它在三个Kafka Brokers中生成消息。 只要达到150K打开的文件失败: There is insufficient memory for the Java Runtime Environment to continue Native memory allocation (mmap) failed to map 1

    1热度

    1回答

    我有一个用Java编写的Spark应用程序。 我想重新启动驱动程序,如果它没有在预定义的时间间隔内完成流批处理。 在不执行定时器的情况下从驱动程序代码中抛出异常时,yarn按预期重新启动应用程序。 当试图添加计时器(需要在不同于驱动程序的线程中)并在分配时间过后抛出异常时,纱线不会重新启动驱动程序。 我的猜测是异常需要从驱动程序线程中抛出。 有什么办法可以达到这个目的吗?

    0热度

    1回答

    我已经在卡夫卡主题中写了一个主题为my-topic,我正在尝试获取火花中的主题信息。但是当我收到长长的错误列表时,我在显示卡夫卡主题细节时遇到了一些困难。我使用java来获取数据。 下面是我的代码: public static void main(String s[]) throws InterruptedException{ SparkConf conf = new SparkConf

    3热度

    1回答

    我正在将JavaRDD(其中字符串是JSON字符串)转换为数据框并显示它。我在做类似下面, public void call(JavaRDD<String> rdd, Time time) throws Exception { if (rdd.count() > 0) { JavaRDD<String> filteredRDD = rdd.filter(x -> x.

    4热度

    1回答

    很多人说: Spark不会复制hdfs中的数据。 Spark将操作放置在DAG图中.Spark构建RDD谱系。如果一个RDD丢失了,他们可以在血统图的帮助下重建。 所以不需要数据复制,因为RDDS可以从血统图重新计算。 我的问题是: 如果一个节点出现故障,火花只会重新计算RDD分区失去了这个节点上,但哪里的recompution过程所需的数据源从何而来?当节点失效时,你的意思是它的父RDD还在吗?

    0热度

    1回答

    (1)Spark如何决定为RDD驱逐哪个分区? (2)LRU和RDD StorageLevel之间的关系是什么? (3)如果数据源大小非常大(大于所有执行程序内存的总和),那么如何触发加载数据并创建RDD?它与LRU有关吗? 我创建了这个问题,目的是获得有关RDD LRU驱逐,StorageLevel的一些细节。

    0热度

    1回答

    我有以下代码: StreamingLinearRegressionWithSGD regressionWithSGD = new StreamingLinearRegressionWithSGD() .setInitialWeights(Vectors.zeros(featuresNumber)); JavaDStream<LabeledPoint> trainin

    0热度

    1回答

    我正在开发一个使用Kafka作为消息发布/子工具的系统。 数据由斯卡拉脚本生成的: val kafkaParams = new Properties() kafkaParams.put("bootstrap.servers", "localhost:9092") kafkaParams.put("key.serializer", "org.apache.kafka.common

    0热度

    1回答

    如果标题过于模糊,我很抱歉,但我无法正确说出它。 所以基本上我想弄清楚Apache Spark和Apache Kafka是否能够将数据从我的关系数据库同步到Elasticsearch。 我的计划是使用Kafka连接器之一从RDBMS中读取数据并将其推入到Kafka主题中。那将是模型和DDL的ERD。很基本的,Report和Product表有许多到许多存在于ReportProduct表关系: CRE