我有一个相当大的文本文件,我想将其转换为SequenceFile。不幸的是,该文件由Python代码组成,逻辑行通过几条物理线路运行。例如,
print“Blah Blah \
... blah blah”
每条逻辑行都以NEWLINE结尾。有人可以澄清我怎么可能在Map-Reduce中生成Key,Value对,其中每个Value都是整个逻辑行?Hadoop自定义拆分TextFile
2
A
回答
1
您应该在TextInputFormat上创建自己的变体。在那里你创建一个新的RecordReader,它跳过行,直到它看到一条逻辑行的开始。
0
预处理输入文件以删除换行符。创建SequenceFile的目标是什么?
4
我没有找到前面提到的问题,但是你只需通过一个简单的mapreduce作业遍历你的代码并将它们保存到一个StringBuilder中。如果要从新记录开始,请将StringBuilder刷新到上下文。诀窍是将您的映射器类中的StringBuilder设置为字段而不是局部变量。
那就是: Processing paraphragraphs in text files as single records with Hadoop
相关问题
- 1. Hadoop的自定义分区
- 2. 实现输入拆分(HADOOP)
- 3. 在Hadoop中自定义InputFormat
- 4. Hadoop自定义可写
- 5. Hadoop如何执行输入拆分?
- 6. hadoop命令在HDFS上拆分文件
- 7. 拆分输入到子猪(Hadoop的)
- 8. Hadoop文件拆分:CompositeInputFormat:内部加入
- 9. Hadoop输入拆分与块的比较
- 10. Hadoop Oozie MapReduce动作自定义分区程序
- 11. Hadoop在节点上自定义输入分布
- 12. 在Hadoop中编写自定义分区程序的语法
- 13. Mapreduce Hadoop中的NullWritable键类型的自定义分区
- 14. 如何在Hadoop中为FairScheduler使用自定义池分配?
- 15. 如何设置自定义hadoop job_id?
- 16. 自定义二进制输入 - Hadoop
- 17. 自定义ListView的适配器创建拆分按钮
- 18. 在webview中读取页面的自定义拆分视图
- 19. 在python中自己定义一个拆分函数
- 20. Netsuite自定义公式拆分字符串
- 21. 导轨与自定义长度拆分字符串
- 22. PHP:将数组拆分为基于自定义函数的块?
- 23. 是否有可能自定义拆分工具提示位置?
- 24. SQL Server自定义SplitString函数与几个拆分
- 25. textfile分隔java nosuchelement异常
- 26. 自定义拆卸管道不工作
- 27. 通过拆自定义列表类型
- 28. 自定义类=自定义+分配,自定义+初始化
- 29. 自定义分页
- 30. 将大型XML文件拆分为Hadoop的可管理部分
这比我目前没有更优雅。我构建了一个本地迭代,它给了我一条逻辑线,并使用RecordReader将整个文档作为ByteWritable进行传输。谢谢你的提示! – dvk 2011-06-17 04:51:29