火花工人之一不工作

我使用了2个工人的独立群集。使用火花卡夫卡卡桑德拉HDFS流火花工人之一不工作

val stream = kafkaUtils.createDirectStream... 
stream.map(rec => Row(rec.offset, rev.value)).saveToCassandra(...) 
stream.map(_.value).foreachRDD(rdd => {saving to HDFS})

我发送到卡夫卡约40000味精/秒是saveToCassandra慢腾腾的，因为如果我评论stream.saveToCassandra它的作品非常好，速度快的第一件事。在火花驱动程序用户界面我看到，5MB的输出大约需要20s。我尝试调整spark-cassandra选项，但它也至少需要14s。

而第二个比我提到的，我的一个员工是什么也不做，它记录我看到这样的内容：

10:05:33 INFO remove RDD#

等

，但如果我阻止另一名工人也开始上班。

我不使用火花提交，只是

startSpark extends App {

和孔代码，然后用

scala -cp "spark libs:kafka:startSpark.jar" startSpark

和CONF开始它的工人，我使用ssc.sparkContext.addJars(pathToNeedableJars)

我该如何提高写给卡桑德拉的信息，以及如何让我的工作人员一起工作？

来源

2017-06-20 Ivan Alex

也用它通过spark-shell --master spark：//192.168.1.40：7077和：粘贴模式。而且结果也和以前一样，一个节点什么也不做 –

我真的不好读正式火花卡夫卡集成指南，这个问题，我用我的第1个主题分区

1：卡夫卡分区之间的一一对应和Spark分区

来源

2017-06-22 09:46:33

Spark 2.1.1，kafka 0.10.2.1 –

火花工人之一不工作

回答

相关问题