配置PySpark和Anaconda3这里是我到目前为止所采取的步骤:正确Linux上
- 我安装Anaconda3和包含在目录
$HOME/anaconda3/bin
一切。 - 我cd'ed到
$HOME/anaconda3/bin
并运行命令./conda install -c conda-forge pyspark
。它成功了。 - 我什么也没做。更具体地讲,有没有在我的
.bashrc
这里设置变量的一些重要的细节:
- 我运行Hadoop的分布式集群上,所以有可能是我的主文件夹以外的其他目录,我还没有发现,但我可能需要。我也没有管理员权限。
- Jupyter笔记本运行得很好。
这里是我的目标:
目标。按照添加变量或配置某些文件的方式进行操作,以便可以在Jupyter Notebook上运行pyspark。
为了实现这个目标,我需要在步骤3之后执行哪些其他步骤?
如果你想使用安装在Jupyter笔记本内的Anaconda中的模块,那么你最好的选择是在你的Anaconda上运行Jupyter本身。 –
我该怎么做? –
我不太熟悉Jupyter肯定地说。这可能与确保Anaconda的bin /目录位于路径的开始处一样简单。它可能需要在Anaconda中安装自己的Jupyter副本。还有其他的可能性。 –