1
我正在使用一个群集,它并非由我自己管理。 Tensorflow库不安装在任何群集节点上。但我想用tensorflow包运行一些Spark程序。我不确定是否可以简单地使用spark-submit -packages在集群节点上广播tensorflow软件包。是否有可能使用spark-submit -package广播Tensorflow库
我正在使用一个群集,它并非由我自己管理。 Tensorflow库不安装在任何群集节点上。但我想用tensorflow包运行一些Spark程序。我不确定是否可以简单地使用spark-submit -packages在集群节点上广播tensorflow软件包。是否有可能使用spark-submit -package广播Tensorflow库
我不确定Tensorflow本身,但是您可以通过使用--jars
的local jars和使用--files
的文件来传递作业。下面是一个例子:
spark-submit --master yarn-cluster --num-executors 5 --driver-memory 640m --executor-memory 640m --conf spark.yarn.maxAppAttempts=1000 \
--jars /usr/hdp/current/spark-client-1.6.1/lib/datanucleus-api-jdo-3.2.6.jar,/usr/hdp/current/spark-client-1.6.1/lib/datanucleus-core-3.2.10.jar,/usr/hdp/current/spark-client-1.6.1/lib/datanucleus-rdbms-3.2.9.jar \
--files /usr/hdp/current/spark-client-1.6.1/conf/hive-site.xml \
--class com.foobar.main
这是怎么开始的火花流作业和应用主机和驱动运行在未安装火花集群上的例子。所以我需要传递一些很长的罐子并配置它运行。