我有一个快速的Hadoop Streaming问题。如果我正在使用Python流,并且我有我的映射器/减速器需要但未默认安装的Python包,我是否还需要在所有Hadoop机器上安装这些包,或者是否有某种序列化将它们发送到远程机器?使用Hadoop Streaming管理依赖关系?
0
A
回答
2
如果它们未安装在任务框中,可以使用-file发送它们。如果你需要一个包或其他目录结构,你可以发送一个zip文件,它将被解压缩。这里有一个Haddop 0.17调用:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-0.17.0-streaming.jar -mapper mapper.py -reducer reducer.py -input input/foo -output output -file /tmp/foo.py -file /tmp/lib.zip
但是,看到这个问题的一个警告:
1
如果使用小飞,你可以使用-libegg分发鸡蛋文件和自动配置的Python运行时间:
https://github.com/klbostee/dumbo/wiki/Short-tutorial#wiki-eggs_and_jars https://github.com/klbostee/dumbo/wiki/Configuration-files
相关问题
- 1. Hadoop Streaming - Perl模块依赖关系
- 2. 管理依赖关系
- 3. JavaScript依赖关系管理
- 4. 使用Maven管理DLL依赖关系
- 5. Hadoop HDFS依赖关系
- 6. 清理Maven依赖关系管理
- 7. Perl模块依赖关系管理
- 8. 管理软件包依赖关系
- 9. 管理依赖关系与鲍尔
- 10. 管理OSS项目的依赖关系
- 11. 如何管理.net依赖关系
- 12. 管理与Maven 2的依赖关系
- 13. Maven依赖关系管理问题
- 14. 管理内部依赖关系
- 15. Gradle“改变”依赖关系管理
- 16. npm:依赖关系如何管理?
- 17. C++依赖关系管理器
- 18. Ionic 2 - 管理依赖关系
- 19. 管理版本依赖关系
- 20. 管理外部jar依赖关系
- 21. 管理SailsJS中的依赖关系
- 22. SBT中Spark-Streaming和Twiter-Streaming的依赖关系
- 23. hadoop和纱线的Maven依赖关系
- 24. 使用静态库和应用程序管理依赖关系
- 25. 依赖关系的nuget依赖关系
- 26. 使用cocoapods管理静态库中的依赖关系
- 27. 使用mercurial管理大型外部依赖关系
- 28. 使用Eclipse和CVS管理依赖关系
- 29. Spark Streaming独立应用程序和依赖关系
- 30. 语言/平台/构建无关依赖关系管理器
氏问题展示了如何在每个节点上导入nltk。 http://stackoverflow.com/questions/6811549/how-can-i-include-a-python-package-with-hadoop-streaming-job/6811775#6811775 – viper 2013-11-04 18:08:47