1
使用PySpark从S3加载多个JSON文件时出现错误,并且如果文件丢失,Spark作业将失败。PySpark作业在加载多个文件时失败,其中一个丢失
产生的原因:org.apache.hadoop.mapred.InvalidInputException:输入模式S3N://example/example/2017-02-18/*.json匹配0文件
这是怎么了我使用PySpark将最后5天添加到我的工作中。
days = 5
x = 0
files = []
while x < days:
filedate = (date.today() - timedelta(x)).isoformat()
path = "s3n://example/example/"+filedate+"/*.json"
files.append(path)
x += 1
rdd = sc.textFile(",".join(files))
df = sql_context.read.json(rdd, schema)
我该如何让PySpark忽略丢失的文件并继续工作?