1
我想弄清楚如何直接从EMR map任务写入s3存储桶。我想运行一个python串流作业,它可以从互联网获取一些数据并将其保存到s3 - 而不用返回来减少作业。任何人都可以帮助我吗?直接从EMR map/reduce任务访问S3
我想弄清楚如何直接从EMR map任务写入s3存储桶。我想运行一个python串流作业,它可以从互联网获取一些数据并将其保存到s3 - 而不用返回来减少作业。任何人都可以帮助我吗?直接从EMR map/reduce任务访问S3
你为什么不只是设置你的MR作业的输出是一个S3目录,并告诉它没有减速:
./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE
这应该做你想要什么。
然后你的脚本可以做这样的事情(不好意思,红宝石):
STDIN.each do |url|
puts extract_data(url)
end