2017-04-24 90 views
0

目前我正在尝试将AWS EMR与Talend集成。将Talend工作与Amazon EMR集成有什么好方法吗?

我的目的是运行在AWS EMR的拓蓝作业(由拓蓝工作室出口)。我已经尝试“添加步骤作为自定义jar”,但似乎Talend作业运行通过使用也导出lib文件夹和脚本。

我想与脂肪罐子运行它,但是这个问题表明,我们不能这样做,因为缺乏一个功能导出JAR文件为脂肪罐子。 - >how to export talend job as single fat jar

有没有了Talend工作与Amazon EMR整合什么好办法?

回答

0

最后,我通过使用AWS提供的script-runner.jar解决了这个问题。

Run a Script in a Cluster

我创建LAMBDA脚本启动EMR集群。我追加HadoopJarStep。 这使我们可以使用一些shell脚本来下载&踢脚本的Talend作业脚本。

  • 请参阅Boto3 Docs - EMR知道意思

     'HadoopJarStep': { 
          'Jar': 's3://ap-northeast-1.elasticmapreduce/libs/script-runner/script-runner.jar', 
          'Args': [ 
           's3://your/bucket/name.../talend_run.sh' 
          ] 
         } 
    

,我开始AWS lambda函数,创建EMR集群。之后,Hadoop处理一个步骤(上面的shell)。

+0

嗨,你能不能请,提供一步的你做了什么一步的指示? –

相关问题