我已经在带纱线客户端的Spark Cluster上运行的Apache Zeppelin中创建并运行了一个%pyspark程序。该程序正在从HDFS读取Dataframe中的文件,并执行简单的groupby命令并成功打印输出。我正在使用Zeppellin版本0.6.2和Spark 2.0.0。在Spark Cluster和YARN上运行的Apache Zeppelin
我可以看到在纱线行走任务(见application_1480590511892_0007):
但是,当我在同一时间检查星火UI有什么都没有了这份工作:
问题1:这个工作不应该出现在这两个窗口中吗?
而且,略高于SparkUI图像中完成的应用程序,是齐柏林工作与%蟒蛇解释只是初始化SparkSession和停止它:
1飞艇块:
%python
from pyspark.sql import SparkSession
from pyspark.sql import Row
import collections
spark = SparkSession.builder.appName("SparkSQL").getOrCreate()
第二齐柏林块:
%python
spark.stop()
问题2:这份工作反过来,并没有出现在YARN用户界面中。每当SparkUI中出现一份工作就意味着它正在使用Spark资源管理器运行吗?
对这些问题的任何见解都非常感谢。
我对此不确定,但是如果您删除停止上下文的语句,您可能会看到该作业。 –