通常在输入文件中能够部分读取和处理Mapper功能(如在文本文件中)。是否有任何事情可以处理二进制文件(比如说图像,序列化对象),这些文件需要所有块在同一主机上,然后才能开始处理。Hadoop:映射二进制文件
2
A
回答
3
将您的图像粘贴到SequenceFile中;那么你将能够使用map-reduce迭代地处理它们。
不太明显:Hadoop本身并不知道任何有关文本和非文本的内容。它只有一个知道如何打开输入流的类(hdfs将不同节点上的块一起处理,以使它们显示为一个大文件)。最重要的是,您有一个Reader和一个InputFormat,它知道如何确定该流在哪里记录开始,结束的位置以及如何在文件中间的某处放弃下一个记录的开头。 TextInputFormat只是一个实现,它将换行符视为记录分隔符。还有一种称为SequenceFile的特殊格式,您可以将任意二进制记录写入,然后让它们退出。使用它。
+0
现在可能希望将Avro类型转换为SequenceFile – rICh 2012-12-19 15:11:47
相关问题
- 1. Hadoop Streaming:映射器'包装'二进制可执行文件
- 2. HBM映射图/二进制
- 3. 在C中使用内存映射读取二进制文件
- 4. 解码二进制光栅GIS文件:垂直映射器.grd
- 5. 差异文件映射和istream的二进制
- 6. Hadoop递归映射
- 7. ELF可执行二进制文件中不正确的分段映射
- 8. 在C中使用内存映射来读取二进制文件
- 9. Hadoop映射器上下文对象
- 10. Hadoop/Elastic Map Reduce使用二进制可执行文件吗?
- 11. Hadoop程序无法找到安装的二进制文件
- 12. Can Hadoop可以读取任意密钥二进制文件
- 13. Hadoop处理非常大的二进制文件
- 14. 复制二进制文件
- 15. 将十六进制字符串解码为4个映射到值的二进制映射的片段
- 16. HADOOP:从映射器发射矩阵
- 17. Hadoop Streaming作业与二进制输入?
- 18. 自定义二进制输入 - Hadoop
- 19. 映射二进制类型的主键(16)
- 20. EF4将varbinary(max)映射到二进制 - 代码优先错误
- 21. 用于映射大型二进制输入的深度学习
- 22. 使用uuid作为id并映射到二进制列的grails
- 23. 持续覆盖svn的mime到二进制映射?
- 24. 如何使用NPOCO将二进制(16)映射到Guid?
- 25. 二进制“尾巴”文件
- 26. 二进制安装文件
- 27. 写入二进制文件
- 28. 二进制文件I/O
- 29. 编译二进制文件
- 30. 阅读二进制文件
你有点儿问这个问题。我在上一个问题中发布的答案在某种程度上解决了这个问题:http://stackoverflow.com/questions/3012121/hadoop-processing-large-serialized-objects – 2010-06-15 14:51:44