2017-04-02 128 views
0

我按照指令here成功设置集群。想知道是否可以通过API使用这种类型的集群来调用Spark?哪里可以找到Spark端点的详细信息?如果前面提到的教程是死胡同的,请问有谁能指出我正确的方向?使用spark与aws集群

我最终的POC目标是在某个S3存储桶中的平面文件(例如csv)中添加2列,并通过spark将第三列的结果值进行比较(这不是功课( - :) - 理想情况下使用Mobius因为我[前] .net开发)。

回答

1

This reference应该为您提供所需的信息。这里是一个片段:

去到EC2目录中的Apache的版本星火您下载 运行./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>,其中<keypair>是您的EC2密钥对的名称(即你给它创建时) <key-file>是你的密钥对私钥文件,<num-slaves>是启动从节点的数量(尝试1在第一),并且<cluster-name>是给你的集群名称

例如

export AWS_SECRET_ACCESS_KEY=AaBbCcDdEeFGgHhIiJjKkLlMmNnOoPpQqRrSsTtU 
export AWS_ACCESS_KEY_ID=ABCDEFG123456789

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a launch my-spark-cluster 

所有内容启动后,请检查集群调度程序是否已启动,并通过转至其Web UI(将在脚本的末尾打印(通常为http://master-hostname:8080))来查看所有从属设备。

+0

谢谢我会尽快检查出来 – cs0815