2016-06-14 57 views
1

我正在运行输出数千千兆字节数据的EMR作业。据我所知,每个map任务输出10s的千兆字节数据,这些中间输出存储在运行map任务的机器的磁盘上。因此,在同一台机器处理完几个映射任务后,磁盘空间不足以存储这些映射任务的中间结果。我知道如何在S3上存储最终结果(在Reducer运行之后),但是有没有办法让S3的中间输出(映射器的结果)也存储在S3中?将中间Amazon EMR任务输出写入S3

不幸的是,只分配更多的机器(或具有更多内存的机器)不是一个实际的解决方案,因为我将在数百TB的数据上运行相同的工作。

任何帮助将不胜感激。

回答