2017-06-01 140 views
2

是否存在使用spark-submit提交python脚本与使用python可执行文件(和导入SparkSession)简单运行.py文件的优点/缺点或不同用例,如下所示?python脚本中spark-submit与SparkSession的区别?

from pyspark.sql import SparkSession 
spk = SparkSession.builder.master(master).getOrCreate() 

基本上是通过python运行脚本,并没有任何差别不是火花提交。

+0

[spark-submit和pyspark有什么不同?](https://stackoverflow.com/questions/26726780/what-is-the-difference-between-spark-submit-and-pyspark) – vmg

+0

pyspark在火星壳内运行,是吗?在这种情况下,我只想通过'''python'''运行脚本,而不是spark-submit。 –

回答

0

​​大多是一种方便的方法。它允许您在提交时设置所有需要的配置,环境变量和其他选项。

它还允许您设置JVM选项,这些选项不能在正在运行的虚拟机上设置。由于一旦创建了Spark配置,就会初始化JVM,所以不能从正在运行的Python进程执行同样的操作。

+0

在并行运行后,它也显示,通过spark-submit,logging默认情况下更为详细,并且spark-submit也处理清理杂事,包括失败和成功。 –

相关问题