正确Linux上

配置PySpark和Anaconda3这里是我到目前为止所采取的步骤：正确Linux上

这里设置变量的一些重要的细节：

这里是我的目标：

目标。按照添加变量或配置某些文件的方式进行操作，以便可以在Jupyter Notebook上运行pyspark。

为了实现这个目标，我需要在步骤3之后执行哪些其他步骤？

如果你想使用安装在Jupyter笔记本内的Anaconda中的模块，那么你最好的选择是在你的Anaconda上运行Jupyter本身。 –

我该怎么做？ –

我不太熟悉Jupyter肯定地说。这可能与确保Anaconda的bin /目录位于路径的开始处一样简单。它可能需要在Anaconda中安装自己的Jupyter副本。还有其他的可能性。 –

既然你已经安装了pyspark与conda，正如你说的Jupyter笔记本电脑运行正常（大致是相同的蟒蛇分布），有需要进一步的步骤 - 你应该能够打开一个新的笔记本电脑和。

注意，虽然安装pyspark的方式（即pip或conda）只提供有限的功能;从包docs：

Spark的Python包装并不打算取代所有其他用例。此Python打包版本的Spark适用于与现有群集（不管是Spark独立，YARN还是 Mesos）进行交互的 - 但不包含设置您自己的独立Spark群集所需的工具。您可以从Apache Spark下载页面下载完整版的Spark 。

与pip或conda安装pyspark是一个相对较新的add-on，目的是在上述的文档描述的情况。我不知道你可能面临什么限制（从来没有尝试过），但是如果你需要完整的功能，你应该下载完整的Spark发行版（其中pyspark是一个不可或缺的部分）。

2017-10-15 16:55:46 desertnaut

回答