2015-09-26 81 views
2


我有一些问题来配置hadoop与sparkR为了从亚马逊S3读取/写入数据。
例如,这些都是在pyspark工作的命令(解决同样的问题):火花R的Hadoop配置

sc._jsc.hadoopConfiguration().set("fs.s3n.impl","org.apache.hadoop.fs.s3native.NativeS3FileSystem") 
sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", "myaccesskey") 
sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", "mysecretaccesskey") 
sc._jsc.hadoopConfiguration().set("fs.s3n.endpoint", "myentrypoint") 

任何人可以帮助我工作了这一点?

+0

'awsSecretAccessKey'和'awsAccessKeyId'可以使用环境变量进行设置。请参阅:[在EC2上运行Spark](http://spark.apache.org/docs/latest/ec2-scripts.html) – zero323

回答

1

您可以设置

<property> 
    <name>fs.s3n.impl</name> 
    <value>org.apache.hadoop.fs.s3native.NativeS3FileSystem</value> 
</property> 
在核心的site.xml

(纱构造)