Sparklyr连接到S3存储桶抛出错误

我想连接到从R sparklyr S3存储桶。我可以将本地文件读取到spark上下文中。然而，尝试连接s3似乎是问题，抛出了一大堆错误。以下是使用的代码列表。Sparklyr连接到S3存储桶抛出错误

注意：单个s3存储桶有多个csv文件，其中遵循相同的模式。

library(sparklyr) 
library(tidyverse) 

sparklyr :: spark_install (version = "2.0.2" , hadoop_version = "2.7") 
sparklyr::spark_install(version = "2.0.2" , hadoop_version = "2.7") 
Sys.setenv (AWS_ACCESS_KEY_ID = "xxxx") 
Sys.setenv (AWS_SECRET_ACCESS_KEY = "xxxx") 
Sys.setenv (AWS_DEFAULT_REGION = "ap-southeast-1") 

Spark_config <- sparklyr :: spark_config() 
sc <- sparklyr :: spark_connect (master = "local" ,config = Spark_config) 
files = "s3n://temp-sg/MVC" 
temp<-spark_read_csv(sc,name = "MVC",path=files,infer_schema = TRUE) 
spark_disconnect(sc)

这里的任何帮助，非常感谢。

以下是错误转储使用S3A的：//

Error: java.lang.IllegalArgumentException: java.net.URISyntaxException: Expected scheme-specific part at index 4: s3a: 
    at org.apache.hadoop.fs.Path.initialize(Path.java:206) 
    at org.apache.hadoop.fs.Path.<init>(Path.java:172) 
    at org.apache.hadoop.fs.Path.<init>(Path.java:94) 
    at org.apache.hadoop.fs.Globber.glob(Globber.java:211) 
    at org.apache.hadoop.fs.FileSystem.globStatus(FileSystem.java:1644) 
    at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:257) 
    at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:228) 
    at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:313) 
    at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:199) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
    at scala.Option.getOrElse(Option.scala:120) 
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:237) 
    at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
    at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
    at scala.Option.getOrElse(Option.scala:120) 
    at org.apache.spark.rdd.RDD.partitions(RDD.scala:237) 
    at org.apache.spark.rdd.RDD$$anonfun$take$1.apply(RDD.scala:1307) 
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150) 
    at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111) 
    at org.apache.spark.rdd.RDD.withScope(RDD.scala:316) 
    at org.apache.spark.rdd.RDD.take(RDD.scala:1302) 
    at com.databricks.spark.csv.CsvRelation.firstLine$lzycompute(CsvRelation.scala:249) 
    at com.databricks.spark.csv.CsvRelation.firstLine(CsvRelation.scala:245) 
    at com.databricks.spark.csv.CsvRelation.inferSchema(CsvRelation.scala:223) 
    at com.databricks.spark.csv.CsvRelation.<init>(CsvRelation.scala:72) 
    at com.databricks.spark.csv.DefaultSource.createRelation(DefaultSource.scala:157) 
    at com.databricks.spark.csv.DefaultSource.createRelation(DefaultSource.scala:44) 
    at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:158) 
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:119) 
    at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:109) 
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
    at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source) 
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) 
    at java.lang.reflect.Method.invoke(Unknown Source) 
    at sparklyr.Invoke$.invoke(invoke.scala:94) 
    at sparklyr.StreamHandler$.handleMethodCall(stream.scala:89) 
    at sparklyr.StreamHandler$.read(stream.scala:55) 
    at sparklyr.BackendHandler.channelRead0(handler.scala:49) 
    at sparklyr.BackendHandler.channelRead0(handler.scala:14) 
    at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105) 
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) 
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) 
    at io.netty.handler.codec.MessageToMessageDecoder.channelRead(MessageToMessageDecoder.java:103) 
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) 
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) 
    at io.netty.handler.codec.ByteToMessageDecoder.channelRead(ByteToMessageDecoder.java:244) 
    at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) 
    at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) 
    at io.netty.channel.DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:846) 
    at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:131) 
    at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:511) 
    at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468) 
    at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382) 
    at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354) 
    at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111) 
    at io.netty.util.concurrent.DefaultThreadFactory$DefaultRunnableDecorator.run(DefaultThreadFactory.java:137) 
    at java.lang.Thread.run(Unknown Source) 
Caused by: java.net.URISyntaxException: Expected scheme-specific part at index 4: s3a: 
    at java.net.URI$Parser.fail(Unknown Source) 
    at java.net.URI$Parser.failExpecting(Unknown Source) 
    at java.net.URI$Parser.parse(Unknown Source) 
    at java.net.URI.<init>(Unknown Source) 
    at org.apache.hadoop.fs.Path.initialize(Path.java:203) 
    ... 58 more

错误与使用S3N的转储：//

Error: java.lang.IllegalArgumentException: java.net.URISyntaxException: Expected scheme-specific part at index 4: s3n: 
     at org.apache.hadoop.fs.Path.initialize(Path.java:206) 
     at org.apache.hadoop.fs.Path.<init>(Path.java:172) 
     at org.apache.hadoop.fs.Path.<init>(Path.java:94) 
     at org.apache.hadoop.fs.Globber.glob(Globber.java:211) 
     at org.apache.hadoop.fs.FileSystem.globStatus(FileSystem.java:1644) 
     at org.apache.hadoop.mapred.FileInputFormat.singleThreadedListStatus(FileInputFormat.java:257) 
     at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:228) 
     at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:313) 
     at org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:199) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
     at scala.Option.getOrElse(Option.scala:120) 
     at org.apache.spark.rdd.RDD.partitions(RDD.scala:237) 
     at org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) 
     at org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:237) 
     at scala.Option.getOrElse(Option.scala:120) 
     at org.apache.spark.rdd.RDD.partitions(RDD.scala:237) 
     at org.apache.spark.rdd.RDD$$anonfun$take$1.apply(RDD.scala:1307) 
     at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150) 
     at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111) 
     at org.apache.spark.rdd.RDD.withScope(RDD.scala:316) 
     at org.apache.spark.rdd.RDD.take(RDD.scala:1302) 
     at com.databricks.spark.csv.CsvRelation.firstLine$lzycompute(CsvRelation.scala:249) 
     at com.databricks.spark.csv.CsvRelation.firstLine(CsvRelation.scala:245) 
     at com.databricks.spark.csv.CsvRelation.inferSchema(CsvRelation.scala:223) 
     at com.databricks.spark.csv.CsvRelation.<init>(CsvRelation.scala:72) 
     at com.databricks.spark.csv.DefaultSource.createRelation(DefaultSource.scala:157) 
     at com.databricks.spark.csv.DefaultSource.createRelation(DefaultSource.scala:44) 
     at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:158) 
     at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:119) 
     at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:109) 
     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
     at sun.reflect.NativeMethodAccessorImpl.invoke(Unknown Source) 
     at sun.reflect.DelegatingMethodAccessorImpl.invoke(Unknown Source) 
     at java.lang.reflect.Method.invoke(Unknown Source) 
     at sparklyr.Invoke$.invoke(invoke.scala:94) 
     at sparklyr.StreamHandler$.handleMethodCall(stream.scala:89) 
     at sparklyr.StreamHandler$.read(stream.scala:55) 
     at sparklyr.BackendHandler.channelRead0(handler.scala:49) 
     at sparklyr.BackendHandler.channelRead0(handler.scala:14) 
     at io.netty.channel.SimpleChannelInboundHandler.channelRead(SimpleChannelInboundHandler.java:105) 
     at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) 
     at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) 
     at io.netty.handler.codec.MessageToMessageDecoder.channelRead(MessageToMessageDecoder.java:103) 
     at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) 
     at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) 
     at io.netty.handler.codec.ByteToMessageDecoder.channelRead(ByteToMessageDecoder.java:244) 
     at io.netty.channel.AbstractChannelHandlerContext.invokeChannelRead(AbstractChannelHandlerContext.java:308) 
     at io.netty.channel.AbstractChannelHandlerContext.fireChannelRead(AbstractChannelHandlerContext.java:294) 
     at io.netty.channel.DefaultChannelPipeline.fireChannelRead(DefaultChannelPipeline.java:846) 
     at io.netty.channel.nio.AbstractNioByteChannel$NioByteUnsafe.read(AbstractNioByteChannel.java:131) 
     at io.netty.channel.nio.NioEventLoop.processSelectedKey(NioEventLoop.java:511) 
     at io.netty.channel.nio.NioEventLoop.processSelectedKeysOptimized(NioEventLoop.java:468) 
     at io.netty.channel.nio.NioEventLoop.processSelectedKeys(NioEventLoop.java:382) 
     at io.netty.channel.nio.NioEventLoop.run(NioEventLoop.java:354) 
     at io.netty.util.concurrent.SingleThreadEventExecutor$2.run(SingleThreadEventExecutor.java:111) 
     at io.netty.util.concurrent.DefaultThreadFactory$DefaultRunnableDecorator.run(DefaultThreadFactory.java:137) 
     at java.lang.Thread.run(Unknown Source) 
    Caused by: java.net.URISyntaxException: Expected scheme-specific part at index 4: s3n: 
     at java.net.URI$Parser.fail(Unknown Source) 
     at java.net.URI$Parser.failExpecting(Unknown Source) 
     at java.net.URI$Parser.parse(Unknown Source) 
     at java.net.URI.<init>(Unknown Source) 
     at org.apache.hadoop.fs.Path.initialize(Path.java:203) 


... 58 more

来源

2017-07-19 Sundar N

你可以发布您的错误信息吗？至少在事情出错后的前几行中。 – JanLauGe

更新错误日志分别为s3a和s3n： –

修复了问题。这里是代码片段。 注意：需要验证正确的JVM正在运行。我在64位机器上使用了32位jvm，因为64位无法工作。 - 火花版本 - 2.0 - 的Hadoop版本 - 2.7

# install.packages("devtools") 
# devtools::install_github("rstudio/sparklyr") 

library(sparklyr) 
library(dplyr) 

# conf$sparklyr.defaultPackages <- "org.apache.hadoop:hadoop-aws:2.7.3" 
# config$spark.executor.memory <- "4g" 
sc <- spark_connect(master = "local",config = conf) 

#Get spark context 
ctx <- sparklyr::spark_context(sc) 

#Use below to set the java spark context 
jsc <- invoke_static( 
    sc, 
    "org.apache.spark.api.java.JavaSparkContext", 
    "fromSparkContext", 
    ctx 
) 
#set the s3 configs: 
hconf <- jsc %>% invoke("hadoopConfiguration") 
hconf %>% invoke("set","fs.s3a.access.key", "xxxx") 
hconf %>% invoke("set","fs.s3a.secret.key", "xxxx") 

# check if spar session is active 
sparklyr::spark_connection_is_open(sc=sc) 


small_file = "s3a://temp-sg/MVC" 

temp<-spark_read_csv(sc,name = "MVC",path=small_file,infer_schema = TRUE) 
spark_disconnect(sc)

来源

2017-07-26 05:23:45

感谢您的更新！理想情况下，请点击左侧的刻度线来接受您自己的答案。 – JanLauGe

很难说究竟是怎么了？没看到你确切的错误信息。但是，我注意到的一件事是，您使用s3n而不是s3a。这是为什么？我建议您尝试s3a代替：

files <- 's3a://temp-sg/MVC' 
temp <- spark_read_csv(sc, 
    name = 'MVC', 
    path = files, 
    infer_schema = TRUE)

也this post见在两者之间的区别更多的细节。

来源

2017-07-19 15:43:43 JanLauGe

已尝试这些选项以及，但似乎并没有工作 –

Sparklyr连接到S3存储桶抛出错误

回答

相关问题