当在集群模式下使用Spark-submit(yarn-cluster)时,jar和packages配置会让我困惑:对于jar,我可以将它们放在HDFS中,而不是放在本地目录中。但是对于包来说,因为它们是用Maven构建的,而HDFS则无法工作。我的方法如下图所示:如何使用Spark-submit配置:jar,packages:在集群模式下?
spark-submit --jars hdfs:///mysql-connector-java-5.1.39-bin.jar --driver-class-path /home/liac/test/mysql-connector-java-5.1.39/mysql-connector-java-5.1.39-bin.jar --conf "spark.mongodb.input.uri=mongodb://192.168.27.234/test.myCollection2?readPreference=primaryPreferred" --conf "spark.mongodb.output.uri=mongodb://192.168.27.234/test.myCollection2" --packages com.mongodb.spark:hdfs:///user/liac/package/jars/mongo-spark-connector_2.11-1.0.0-assembly.jar:1.0.0 --py-files /home/liac/code/diagnose_disease/tool.zip main_disease_tag_spark.py --master yarn-client
发生错误:
`Exception in thread "main" java.lang.IllegalArgumentException: requirement failed: Provided Maven Coordinates must be in the form 'groupId:artifactId:version'. The coordinate provided is: com.mongodb.spark:hdfs:///user/liac/package/jars/mongo-spark-connector_2.11-1.0.0-assembly.jar:1.0.0
任何人都可以告诉我如何使用群集模式瓶和包?我的方式有什么问题?
在你的脚本:'--master纱client'? – ShuaiYuan
是的,我也尝试' - 主纱群' – lac