使用spark与aws集群

我按照指令here成功设置集群。想知道是否可以通过API使用这种类型的集群来调用Spark？哪里可以找到Spark端点的详细信息？如果前面提到的教程是死胡同的，请问有谁能指出我正确的方向？使用spark与aws集群

我最终的POC目标是在某个S3存储桶中的平面文件（例如csv）中添加2列，并通过spark将第三列的结果值进行比较（这不是功课（ - :) - 理想情况下使用Mobius因为我[前] .net开发）。

2017-04-02 cs0815

This reference应该为您提供所需的信息。这里是一个片段：

“去到EC2目录中的Apache的版本星火您下载运行./spark-ec2 -k <keypair> -i <key-file> -s <num-slaves> launch <cluster-name>，其中<keypair>是您的EC2密钥对的名称（即你给它创建时） <key-file>是你的密钥对私钥文件，<num-slaves>是启动从节点的数量（尝试1在第一），并且<cluster-name>是给你的集群名称

例如：

export AWS_SECRET_ACCESS_KEY=AaBbCcDdEeFGgHhIiJjKkLlMmNnOoPpQqRrSsTtU 
export AWS_ACCESS_KEY_ID=ABCDEFG123456789

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a launch my-spark-cluster

所有内容启动后，请检查集群调度程序是否已启动，并通过转至其Web UI（将在脚本的末尾打印（通常为http://master-hostname:8080））来查看所有从属设备。“

来源

2017-04-02 18:24:28 Vidya

谢谢我会尽快检查出来 – cs0815

使用spark与aws集群

回答

相关问题