2012-02-13 36 views
1

我想弄清楚如何直接从EMR map任务写入s3存储桶。我想运行一个python串流作业,它可以从互联网获取一些数据并将其保存到s3 - 而不用返回来减少作业。任何人都可以帮助我吗?直接从EMR map/reduce任务访问S3

回答

0

你为什么不只是设置你的MR作业的输出是一个S3目录,并告诉它没有减速:

./elastic-mapreduce ..... --output s3n://bucket/outputfiles --reducer NONE 

这应该做你想要什么。

然后你的脚本可以做这样的事情(不好意思,红宝石):

STDIN.each do |url| 
    puts extract_data(url) 
end