我在独立模式下设置了一个简单的Spark群集,并希望使用Apache Zeppelin作为交互式Spark“暂存区”。不幸的是,当SparkContext
启动时,它占用了我实验群集上的所有内核。我知道有一个名为“Dynamic Allocation”的新功能,但它只能与YARN一起使用。我在这个集群上没有YARN,我不想运行一个完整的Hadoop堆栈,因为我想使用Cassandra作为数据后端。Apache Zeppelin可以在一段时间后自动关闭它的SparkContext并重新打开它吗?
这不知道怎么可能不使用YARN?
我其实最后跟YARN一起去了。这样做的好处是我也有HDFS,可以上传要添加到Cassandra的数据。然后我可以定义自定义的'InputFormat',使用'sc.newAPIHadoopFile'来获取RDD并将它们添加到Spark中的数据库中。 – rabejens