2017-10-13 64 views
0

配置PySpark和Anaconda3这里是我到目前为止所采取的步骤:正确Linux上

  1. 我安装Anaconda3和包含在目录$HOME/anaconda3/bin一切。
  2. 我cd'ed到$HOME/anaconda3/bin并运行命令./conda install -c conda-forge pyspark。它成功了。
  3. 我什么也没做。更具体地讲,有没有在我的.bashrc

这里设置变量的一些重要的细节:

  • 我运行Hadoop的分布式集群上,所以有可能是我的主文件夹以外的其他目录,我还没有发现,但我可能需要。我也没有管理员权限。
  • Jupyter笔记本运行得很好。

这里是我的目标:

目标。按照添加变量或配置某些文件的方式进行操作,以便可以在Jupyter Notebook上运行pyspark。

为了实现这个目标,我需要在步骤3之后执行哪些其他步骤?

+0

如果你想使用安装在Jupyter笔记本内的Anaconda中的模块,那么你最好的选择是在你的Anaconda上运行Jupyter本身。 –

+0

我该怎么做? –

+0

我不太熟悉Jupyter肯定地说。这可能与确保Anaconda的bin /目录位于路径的开始处一样简单。它可能需要在Anaconda中安装自己的Jupyter副本。还有其他的可能性。 –

回答

0

既然你已经安装了pyspark与conda,正如你说的Jupyter笔记本电脑运行正常(大致是相同的蟒蛇分布),有需要进一步的步骤 - 你应该能够打开一个新的笔记本电脑和​​。

注意,虽然安装pyspark的方式(即pipconda)只提供有限的功能;从包docs

Spark的Python包装并不打算取代所有 其他用例。此Python打包版本的Spark适用于与现有群集(不管是Spark独立,YARN还是 Mesos)进行交互的 - 但不包含设置您自己的 独立Spark群集所需的工具。您可以从Apache Spark下载页面下载完整版的Spark 。

pipconda安装pyspark是一个相对较新的add-on,目的是在上述的文档描述的情况。我不知道你可能面临什么限制(从来没有尝试过),但是如果你需要完整的功能,你应该下载完整的Spark发行版(其中pyspark是一个不可或缺的部分)。