2017-08-28 83 views
-1

我使用Python 2.7使用pyspark不工作时,pyspark地图用户定义的函数编写外脚本

我使用一个用户定义的函数,它工作得很好,当我使用它像这样

def func(x): 
    pass 

RDD.map(lambda x:func(x)) 

但是当我创建另一个脚本调用utils的内部功能和使用

from utils import func as func 
RDD.map(lambda x:func(x)) 

我得到一个错误

ImportError: No module named utils

如何从用户定义的模块导入功能并将其与RDD映射一起使用?

感谢

回答

1

在命令行:

spark-submit --py-files utils.py ... 

或者脚本:

sc.addPyFile('file:///path/to/utils.py') 
+2

请不要忘记添加一些文本,说明你的答案 - 为什么它的工作原理,以及它如何解决原始问题 –

+0

如何使用spark上下文将它集成到python脚本中? – thebeancounter