我正尝试使用python spark库在Amazon EMR上读取文本文件。该文件位于主目录(/ home/hadoop/wet0),但spark似乎无法找到它。Spark/Hadoop无法在AWS EMR上找到文件
线问题:
lines = spark.read.text(sys.argv[1]).rdd.map(lambda r: r[0])
错误:
pyspark.sql.utils.AnalysisException: u'Path does not exist: hdfs://ip-172-31-19-121.us-west-2.compute.internal:8020/user/hadoop/wet0;'
文件是否必须在一个特定的目录?我无法在AWS网站上的任何位置找到有关此信息。
你会打印'hadoop fs -ls/user/hadoop /'的输出吗? – eliasah