鉴于Hadoop 0.21.0,该框架针对相对于每个单独映射的打开文件描述符的数量做出了什么假设并减少了操作?具体来说,哪些子操作会导致Hadoop在作业执行期间打开新的文件描述符或者溢出到磁盘?Hadoop中打开的文件描述符的预期消耗0.21.0
(这是故意忽略了使用MultipleOutputs
,因为它很清楚的螺钉与系统提供的担保)。
我在这里的理由很简单:我想确保我写的Hadoop保证每个作业每个映射器或缩减器需要有限数量的文件描述符。 Hadoop高兴地将它从程序员中抽象出来,这通常是件好事,如果不是在服务器管理期间其他鞋子掉落的话。
我原本是asked this question on Server Fault从集群管理方面看的东西。由于我也负责编程,因此这个问题同样适用于此。
相关地,观察Hadoop为每个工作人员消耗全部1024个可用文件描述符并不太有趣。我已经提出了临时性的限制,但这似乎是一个长期的编程和集群管理策略。 – MrGomez 2010-12-05 02:30:54