2015-08-28 93 views
1

我正在寻找可在AWS计划任务/作业将查询外部HTTP服务器,最好的工具。外部服务器回复XML文件,以便理想地将这些文件存储在S3上然后处理,并将抛光的数据移动到Redshift。我正在研究AWS Data Pipeline和Amazon EMR,但他们主要关注在AWS中移动数据。 有什么建议吗? 感谢导入XML数据到AWS

回答

0

Amazon简单工作流服务(SWF)可以是溶液。我确信SWF可以做到这一点,但有点沉重。数据管道需要更多编程。

这里是SWF &数据管道之间的不同:

问:如何为AWS数据管道从亚马逊的简单工作流服务有什么不同?

虽然这两个服务都提供执行跟踪,重试和异常处理功能以及运行任意操作的能力,但AWS Data Pipeline专门设计用于简化大多数数据驱动工作流程中常见的特定步骤 - 尤其是,在他们的输入数据满足特定的准备就绪标准之后执行活动,在不同的数据存储之间容易地复制数据以及调度链式变换。这种高度专注的重点意味着其工作流定义可以快速创建,无需代码或编程知识。 Ref.

或者,你可以使用SWF创建时间表,然后把处理逻辑AWS LAMBDA。使用SWF触发器AWS Lambda功能会更简单。

0

如果您使用的是AWS DataPipeline,您可以编写一个ShellCommandActivity(python脚本或任何cust exe),它可以从目标服务器获取XML,将其粘贴到CSV并将其保存到s3,然后可以使用RedshiftCopyActivity指示Redshift从该位置加载文件。