-2
我开发了一个机器学习用例的python脚本,现在我想在spark的pyspark shell中执行该脚本。 我能马上做到吗?将Python脚本工作在火花使用pyspark
我开发了一个机器学习用例的python脚本,现在我想在spark的pyspark shell中执行该脚本。 我能马上做到吗?将Python脚本工作在火花使用pyspark
要使用Spark的内存分布式处理能力,您需要使用pyspark API来定义Spark上下文并创建RDD(弹性分布式数据集)。标准的python代码可以在pyspark shell中运行,但是它与在单个节点上运行代码相同。 Spark确实有自己的机器学习库,但是通常这些特性并不像python中那样丰富。希望这可以帮助。
我可以在pyspark中安装所有的python模块(如熊猫,sklearn等)吗?如果是的话那么该怎么做? –
Python模块的安装独立于PySpark。 假设你在Unix环境下工作。检查您是否安装了“pip”实用程序。 例如: 哪个pip 会给你的文件系统中的pip命令的位置。 如果“pip”可用,您可以尝试: pip install pandas 取决于您的网站包的设置。您可能必须手动下载所有软件包,并使其在您的Python存储库中可用,以便点子安装它们。 如需进一步阅读,这可能有所帮助:https://docs.python.org/3/installing/ – neko