spark-shell错误：No方案的FileSystem：wasb

我们在Azure中运行HDInsight群集，但它不允许在群集创建时旋转边缘/网关节点。所以我通过安装spark-shell错误：No方案的FileSystem：wasb

echo 'deb http://private-repo-1.hortonworks.com/HDP/ubuntu14/2.x/updates/2.4.2.0 HDP main' >> /etc/apt/sources.list.d/HDP.list 
echo 'deb http://private-repo-1.hortonworks.com/HDP-UTILS-1.1.0.20/repos/ubuntu14 HDP-UTILS main' >> /etc/apt/sources.list.d/HDP.list 
echo 'deb [arch=amd64] https://apt-mo.trafficmanager.net/repos/azurecore/ trusty main' >> /etc/apt/sources.list.d/azure-public-trusty.list 
gpg --keyserver pgp.mit.edu --recv-keys B9733A7A07513CAD 
gpg -a --export 07513CAD | apt-key add - 
gpg --keyserver pgp.mit.edu --recv-keys B02C46DF417A0893 
gpg -a --export 417A0893 | apt-key add - 
apt-get -y install openjdk-7-jdk 
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64 
apt-get -y install hadoop hadoop-hdfs hadoop-yarn hadoop-mapreduce hadoop-client openssl libhdfs0 liblzo2-2 liblzo2-dev hadoop-lzo phoenix hive hive-hcatalog tez mysql-connector-java* oozie oozie-client sqoop flume flume-agent spark spark-python spark-worker spark-yarn-shuffle

创建这个边缘/网关节点然后我复制/usr/lib/python2.7/dist-packages/hdinsight_common//usr/share/java//usr/lib/hdinsight-datalake//etc/spark/conf//etc/hadoop/conf/

但是当我运行spark-shell我获得以下错误

java.io.IOException: No FileSystem for scheme: wasb

下面是完整的堆栈https://gist.github.com/anonymous/ebb6c9d71865c9c8e125aadbbdd6a5bc

我不确定哪个包/ jar在这里丢失。

任何人有任何线索我做错了什么？

感谢

来源

2016-07-07 roy

我要寻找一个解决类似的问题。可能的帮助在这里：http://stackoverflow.com/questions/32264020/unable-to-connect-with-azure-blob-storage-with-local-hadoop – aaronsteers

海宁从微软上一个Apache的Hadoop安装写在设置wasb一个优秀的博客文章。

以下是摘要：

添加hadoop-azure-*.jar和azure-storage-*.jar到Hadoop的类路径

1.1查找本地安装的罐子。它位于HDInsight群集上的/ usr/hdp/current/hadoop-client文件夹中。

1.2更新HADOOP_CLASSPATH变量在hadoop-env.sh。使用精确的jar名称作为java classpath不支持部分通配符。

更新核心的site.xml

<property>   
     <name>fs.AbstractFileSystem.wasb.Impl</name>       
     <value>org.apache.hadoop.fs.azure.Wasb</value> 
</property> 

<property> 
     <name>fs.azure.account.key.my_blob_account_name.blob.core.windows.net</name> 
     <value>my_blob_account_key</value> 
</property> 

<!-- optionally set the default file system to a container --> 
<property> 
     <name>fs.defaultFS</name>   
     <value>wasb://[email protected]_blob_account_name.blob.core.windows.net</value> 
</property>

见具体步骤在这里： https://github.com/hning86/articles/blob/master/hadoopAndWasb.md

来源

2016-07-07 21:02:55 CatNinja

感谢您的建议，但对于特定用例，我不能使用客户端通过集群部署部署。 – roy

火花壳设置Azure存储（wasb和wasbs文件）的另一种方法是：

将azure-storage和hadoop-azure jar复制到spark insta的./jars目录中llation。

运行火花壳与参数-jars [逗号与路由分隔的列表的那些罐子例：


$ bin/spark-shell --master "local[*]" --jars jars/hadoop-azure-2.7.0.jar,jars/azure-storage-2.0.0.jar

添加以下行到火花上下文：


sc.hadoopConfiguration.set("fs.azure", "org.apache.hadoop.fs.azure.NativeAzureFileSystem") 
sc.hadoopConfiguration.set("fs.azure.account.key.my_account.blob.core.windows.net", "my_key")

运行一个简单的查询：


sc.textFile("wasb://[email protected]_account_host/myfile.txt").count()

享受:)

有了这个设置，你可以很容易地能建立一个Spark应用程序，传递参数给“hadoopConfiguration”在当前背景下星火

来源

2017-01-09 20:12:00

在他们的代码示例中使用引号的人是... –

我的不好。我不得不停止使用Mac Notes来节省代码片段:) –

是的，现在好多了:)而且还有一个非常好的解决方案，从我+1。 –

spark-shell错误：No方案的FileSystem：wasb

回答

相关问题