2015-02-10 78 views
0

我是新来的使用AWS,所以任何指针将不胜感激。 我需要使用我们的内部软件处理大型文件。针对aws的批处理推荐

它需要大约2GB的输入并生成5GB的输出,在c3.8xlarge上运行2小时。

现在我手动做,启动一个实例(按需或点播请求),但现在我想要可靠地自动化和扩展这个处理 - 什么是良好的框架或平台或亚马逊服务来做到这一点? 特别是关于spot-instance会中途终止的可能性(我需要检测并重新启动作业)。

我听说过Python芹菜,但它与亚马逊和spot-instances一起工作吗? 或者还有其他推荐的机制吗?

谢谢!

回答

0

这有点意见为主,但你可以混合和匹配一些AWS件使它更容易些:

  • 把输入数据上S3
  • 推的进入一个SQS队列指示一个作业需要处理很长的可见性超时
  • 在CloudFormation中设置了一个autoscaling policy based on SQS与您的机器描述。
  • 使用UserData/cloudinit设置机器并启动您的应用程序
  • 编写代码接收队列条目,开始处理,完成处理,然后删除SQS消息。
  • 代码应该检查另一个排队条目。如果没有,代码应该终止机器。