2013-02-21 72 views
1

我希望将一种格式的二进制文件转换为SequenceFile。Hadoop Streaming作业与二进制输入?

我有一个Python脚本,采用该格式的标准输入,可以输出任何我想要的。

输入格式不是基于行的。单个记录本身是二进制的,因此输出格式不能用\ n分隔或分割成几行。

我可以使用Hadoop Streaming接口来使用二进制格式吗?我如何生成二进制输出格式?

我假设答案是“否”,除非我另有声明。

回答

0

你可能会考虑使用NullWritable作为输出,并直接在你的python脚本中生成SequenceFile。您可以在github中查找hadoop-python项目以查看候选代码:尽管它确实有点大 - 重/重,它处理序列文件生成。