spark-streaming

1热度

1回答

在我的Spark应用程序中，我有很多I/O操作，比如codis，hbase等。我想确保每个执行程序中都有一个连接池，我该如何执行此操作优雅？现在，我分散执行一些静态类，这对管理不好。如何将它们集中到一个像xxContext这样的类，一些类似SparkContext的类中，并且需要我播放它？我知道广播大型只读数据集是很好的，但这些连接池如何？ Java或scala都可以接受。

0热度

1回答

YARN上的Spark流 - 没有足够的内存让Java运行时环境继续

这是一个在YARN集群模式下运行的Spark Streaming应用程序，它在三个Kafka Brokers中生成消息。只要达到150K打开的文件失败： There is insufficient memory for the Java Runtime Environment to continue Native memory allocation (mmap) failed to map 1

1热度

1回答

如何配置YARN以在经过一段时间后重新启动Spark驱动程序？

我有一个用Java编写的Spark应用程序。我想重新启动驱动程序，如果它没有在预定义的时间间隔内完成流批处理。在不执行定时器的情况下从驱动程序代码中抛出异常时，yarn按预期重新启动应用程序。当试图添加计时器（需要在不同于驱动程序的线程中）并在分配时间过后抛出异常时，纱线不会重新启动驱动程序。我的猜测是异常需要从驱动程序线程中抛出。有什么办法可以达到这个目的吗？

0热度

1回答

卡夫卡主题内容不显示在火花中

我已经在卡夫卡主题中写了一个主题为my-topic，我正在尝试获取火花中的主题信息。但是当我收到长长的错误列表时，我在显示卡夫卡主题细节时遇到了一些困难。我使用java来获取数据。下面是我的代码： public static void main(String s[]) throws InterruptedException{ SparkConf conf = new SparkConf

3热度

1回答

Spark Dataframe在指定模式时返回NULL

我正在将JavaRDD（其中字符串是JSON字符串）转换为数据框并显示它。我在做类似下面， public void call(JavaRDD<String> rdd, Time time) throws Exception { if (rdd.count() > 0) { JavaRDD<String> filteredRDD = rdd.filter(x -> x.

4热度

1回答

火花RDD容错的误区

很多人说： Spark不会复制hdfs中的数据。 Spark将操作放置在DAG图中.Spark构建RDD谱系。如果一个RDD丢失了，他们可以在血统图的帮助下重建。所以不需要数据复制，因为RDDS可以从血统图重新计算。我的问题是：如果一个节点出现故障，火花只会重新计算RDD分区失去了这个节点上，但哪里的recompution过程所需的数据源从何而来？当节点失效时，你的意思是它的父RDD还在吗？

0热度

1回答

RDF缓存驱逐的LRU策略如何在apache spark中工作？

（1）Spark如何决定为RDD驱逐哪个分区？（2）LRU和RDD StorageLevel之间的关系是什么？（3）如果数据源大小非常大（大于所有执行程序内存的总和），那么如何触发加载数据并创建RDD？它与LRU有关吗？我创建了这个问题，目的是获得有关RDD LRU驱逐，StorageLevel的一些细节。

0热度

1回答

Spark ml streaming predictOnValues如何保存结果？

我有以下代码： StreamingLinearRegressionWithSGD regressionWithSGD = new StreamingLinearRegressionWithSGD() .setInitialWeights(Vectors.zeros(featuresNumber)); JavaDStream<LabeledPoint> trainin

0热度

1回答

Kafka（Re-）加入小组坚持超过2个主题

我正在开发一个使用Kafka作为消息发布/子工具的系统。数据由斯卡拉脚本生成的： val kafkaParams = new Properties() kafkaParams.put("bootstrap.servers", "localhost:9092") kafkaParams.put("key.serializer", "org.apache.kafka.common

0热度

1回答

在Apache Spark中加入流式数据

如果标题过于模糊，我很抱歉，但我无法正确说出它。所以基本上我想弄清楚Apache Spark和Apache Kafka是否能够将数据从我的关系数据库同步到Elasticsearch。我的计划是使用Kafka连接器之一从RDBMS中读取数据并将其推入到Kafka主题中。那将是模型和DDL的ERD。很基本的，Report和Product表有许多到许多存在于ReportProduct表关系： CRE