2016-07-29 46 views

回答

1

要使用Spark的内存分布式处理能力,您需要使用pyspark API来定义Spark上下文并创建RDD(弹性分布式数据集)。标准的python代码可以在pyspark shell中运行,但是它与在单个节点上运行代码相同。 Spark确实有自己的机器学习库,但是通常这些特性并不像python中那样丰富。希望这可以帮助。

+0

我可以在pyspark中安装所有的python模块(如熊猫,sklearn等)吗?如果是的话那么该怎么做? –

+0

Python模块的安装独立于PySpark。 假设你在Unix环境下工作。检查您是否安装了“pip”实用程序。 例如: 哪个pip 会给你的文件系统中的pip命令的位置。 如果“pip”可用,您可以尝试: pip install pandas 取决于您的网站包的设置。您可能必须手动下载所有软件包,并使其在您的Python存储库中可用,以便点子安装它们。 如需进一步阅读,这可能有所帮助:https://docs.python.org/3/installing/ – neko