2016-12-01 63 views
0

我已经在带纱线客户端的Spark Cluster上运行的Apache Zeppelin中创建并运行了一个%pyspark程序。该程序正在从HDFS读取Dataframe中的文件,并执行简单的groupby命令并成功打印输出。我正在使用Zeppellin版本0.6.2和Spark 2.0.0。在Spark Cluster和YARN上运行的Apache Zeppelin

我可以看到在纱线行走任务(见application_1480590511892_0007): enter image description here

但是,当我在同一时间检查星火UI有什么都没有了这份工作:

enter image description here

问题1:这个工作不应该出现在这两个窗口中吗?

而且,略高于SparkUI图像中完成的应用程序,是齐柏林工作与%蟒蛇解释只是初始化SparkSession和停止它:

1飞艇块:

%python 
from pyspark.sql import SparkSession 
from pyspark.sql import Row 
import collections 

spark = SparkSession.builder.appName("SparkSQL").getOrCreate() 

第二齐柏林块:

%python 
spark.stop() 

问题2:这份工作反过来,并没有出现在YARN用户界面中。每当SparkUI中出现一份工作就意味着它正在使用Spark资源管理器运行吗?

对这些问题的任何见解都非常感谢。

+0

我对此不确定,但是如果您删除停止上下文的语句,您可能会看到该作业。 –

回答

0

一旦解释器第一次使用,Zeppelin会运行一个连续的Spark应用程序。所有段落都将在这一个应用程序中运行。在第二段中,您停止了SparkSession(spark.stop),因此会终止首次使用解释器时创建的应用程序。因此,您可以在“已完成的应用程序”部分查看作业。如果您删除spark.stop,则应该看到正在运行应用程序下列出的作业。

相关问题