最近我一直在pySpark工作很多,所以我已经习惯了它的语法,不同的API和HiveContext函数。很多时候,当我开始一个项目时,我并没有完全意识到它的作用范围或者输入数据的大小,所以有时候我最终需要分布式计算的全部功能,而在其他项目中,我最终会遇到一些脚本可以在我的本地机器上正常运行。PySpark(本地)与Jupyter笔记本上的Python编程
我的问题是,使用pySpark作为我的主要语言与常规Python /熊猫进行比较,即使只是一些探索性分析,是否存在缺点?我主要问的原因是语言之间切换的认知工作,以及如果我需要分发工作,将我的代码从Python移动到pySpark的麻烦。我知道Python会有更多的功能,但是到目前为止我的当前项目都没有使用任何未被Spark覆盖的库,所以我主要关心速度,内存和其他可能的缺点;哪个在我的本地机器上表现更好?
在我看来,我并没有看到任何劣势。即使使用PySpark,您仍然可以在需要时使用Python库。所以我肯定会推荐你继续使用PySpark,因为你必须使用非常大的数据集。 – KartikKannapur