2017-09-23 379 views
0

我在这个路径上安装了Apache Spark在这个路径/home/mymachine/spark-2.1.0-bin-hadoop2.7所以我必须去python目录下,以便能够使用spark或者我可以在python目录下使用它从库调用findspark,但看来我总是初始化这个库是这样的:设置findspark.init()永久

import findspark 
findspark.init("/home/mymachine/spark-2.1.0-bin-hadoop2.7") 

每次我想用findspark,这是不是很有效。无论如何永久启动这个库?

here它提到需要在.bash_profile上设置变量SPARK_HOME,我做到了,但没有运气。

+0

嗨,我在OSX上有类似的问题。意思是,我将SPARK_HOME添加到了我的.bash_profile文件中,但没有运气。我不得不'源'.bash_profile'解决。 –

+0

Hi @ bob-haffner你用'''source .bash_profile'''来解决什么意思? – HelloWorld

+0

嗨HW,当你添加一个env var(例如SPARK_HOME)到.bash_profile时,你需要关闭并重新打开你的shell或者执行'source .bash_profile',这样你才能使用它。那有意义吗? –

回答

0

添加以下变量的.bashrc文件

export SPARK_HOME=/path/2/spark/folder 
export PATH=$SPARK_HOME/bin:$PATH 

然后source .bashrc
如果你想运行与jupyter笔记本pyspark,添加这些变量的.bashrc

export PYSPARK_DRIVER_PYTHON=jupyter 
export PYSPARK_DRIVER_PYTHON_OPTS='notebook' 
再次 source .bashrc

现在,如果您从shell运行pyspark,它将启动jupyter笔记本服务器,并且可以在python内核上使用pyspark。