将Python脚本工作在火花使用pyspark

-2

我开发了一个机器学习用例的python脚本，现在我想在spark的pyspark shell中执行该脚本。我能马上做到吗？将Python脚本工作在火花使用pyspark

2016-07-29 Abhishek Puri

要使用Spark的内存分布式处理能力，您需要使用pyspark API来定义Spark上下文并创建RDD（弹性分布式数据集）。标准的python代码可以在pyspark shell中运行，但是它与在单个节点上运行代码相同。 Spark确实有自己的机器学习库，但是通常这些特性并不像python中那样丰富。希望这可以帮助。

来源

2016-07-29 08:47:14 neko

我可以在pyspark中安装所有的python模块（如熊猫，sklearn等）吗？如果是的话那么该怎么做？ –

Python模块的安装独立于PySpark。假设你在Unix环境下工作。检查您是否安装了“pip”实用程序。例如：哪个pip 会给你的文件系统中的pip命令的位置。如果“pip”可用，您可以尝试： pip install pandas 取决于您的网站包的设置。您可能必须手动下载所有软件包，并使其在您的Python存储库中可用，以便点子安装它们。如需进一步阅读，这可能有所帮助：https：//docs.python.org/3/installing/ – neko

将Python脚本工作在火花使用pyspark

回答

相关问题