我有一个hadoop集群,我正在使用Numpy,SciPy和Pandas进行数据分析。我希望能够使用'--file'参数将命令作为zip/tar文件提交给我的hadoop作业。这个zip文件应该有一切,我的python程序需要执行,无论我的脚本在集群上执行什么节点,我都不会在运行时遇到ImportError。如何将依赖的python脚本打包到zip/tar?
由于公司政策,在每个节点上安装这些库不是完全可行的,尤其是对于探索性/敏捷开发。虽然我已经安装了pip和virtualenv来创建沙箱。
我已经看过zipimport和python packaging但这些都不符合我的需求/我在使用这些工具时遇到困难。
有没有人有这样做的运气?我似乎无法在网上找到任何成功案例。
谢谢!
不确定这些特定的依赖关系,但pex在创建一个文件方面效果很好:https://pex.readthedocs.org/en/latest/ –