2016-08-21 76 views
1

从任务(地图功能)中创建的火花任务是否有可能做从映射功能pyspark地图(从任务即)? 换句话说,是否可以从任务中打开“子任务”? 如果是这样 - 我如何将sparkContext传递给任务 - 就像变量一样?在同一个应用程序

我想有一个由许多任务组成的工作 - 这些任务应该创造许多任务为好,不回去给驾驶员。

我的用例如下: 我正在做一个使用工作队列编写的应用程序的代码移植 - pyspark。 在我的旧应用程序任务中创建了其他任务 - 并且我们使用了这个功能。我不想重新设计整个代码,因为这个举动会引发火花(尤其是因为我将不得不确保两个平台都能在系统之间的瞬态阶段工作)...

回答

2

是否有可能从任务中打开“子任务”?

没有,至少不会在一个健康的方式*

任务是从驱动器和火花发送的指令具有如图一个驱动(中央协调器),其与许多分布式工人(执行人)连通。

其结果是,你问什么在这里,意味着每个任务可以起到从驱动器的作用。甚至不是一个工人,他对我的回答和我的任务有相同的信念。

显着的资源:

  1. What is a task in Spark? How does the Spark worker execute the jar file?
  2. What are workers, executors, cores in Spark Standalone cluster?

* 虽这么说,我的意思是,我不知道有任何黑客或什么的,这是否存在会太具体。

+0

感谢您的帮助 - 我认为这将是答案。 我玩了一下,我实际上成功地创建了其他应用程序(火花上下文)从任务和事情似乎在小规模集群上正常工作。 我很害怕,这是一个黑客和行为将是不确定的...... 你解决了我的两难困境。 –

+0

@OferE。你的意思是*新的*火花上下文,对吧? – gsamaras

+0

是 - 和它的工作 - 我不得不在资源配置中的一些问题,因为主要驱动力把所有的CPU和子任务的司机得到了饿死 - 但它可以使用特殊和复杂的配置来解决.... 我很害怕,这是太hacky,并且行为是未定义的。 我也想避免丑陋的配置必要 - 这就是为什么我问同一个应用程序的子任务(我的想法是使用公平调度,以避免饥饿)。 –

相关问题