我是Hadoop和MapReduce的新手。我有这个范围内某些目录和文件(每个文件10 MB大和N可能是100文件可以压缩或解压缩),如: MyDir1 /文件1 MyDir1 /文件2 ... MyDir1/fileN一个映射器或一个reducer来处理一个文件或目录
MyDir2 /文件1 MyDir2 /文件2 ... MyDir3/fileN
我想设计一个MapReduce的应用程序,其中一个映射或减速将处理整个MyDir1即我不想让MyDir1在多个映射器进行分割。同样,我希望MyDir2可以完全由其他映射器/缩减器进行处理而不会分裂。
关于如何去做这件事的任何想法?我是否需要编写自己的InputFormat并读取输入文件?
我其实有两个相同的要求。我需要不要拆分文件,因为文件顶部有标题信息。我需要一个每个映射器的目录,以便我可以处理该目录中的文件,以便排序文件(按日期/时间)比排序单个行要高效得多。 – MikeKulls 2014-08-29 04:55:55