这似乎是一个非常常见的用例,但在Hadoop中很难做到这一点(可能使用WholeFileRecordReader类)。 Dumbo或Pig都可能吗? 有谁知道使用Dumbo或Pig处理整个文件为地图任务的方法吗?使用Python代码处理Hadoop中的整个文件(最好在Dumbo中)
2
A
回答
0
WholeFileRecordReader是否意味着不分割输入文件?如果是这样,将mapred.min.split.size定义为一个非常大的值,mapreduce和Pig都会采用它。
+0
谢谢。这听起来很简单,但我需要在哪个节点上设置它(我正在使用远程Hadoop集群)? – jan
0
我假设你想有一个文件在猪的记录上。如果没有,请在你的问题中更具体。
我不知道一次加载整个文件的Pig存储加载器(在标准分发版或Piggybank中)。我建议你写自己的Pig custom loader,这相对容易。
相关问题
- 1. 处理hadoop python中的多个文件
- 2. 在Python中使用Hadoop来处理一个大的csv文件
- 3. 使用一个代码在Python中处理多个文件
- 4. hadoop的Dumbo mapreduce
- 5. 在Python中处理多个代码文件和文件夹
- 6. EMR Hadoop处理整个S3文件
- 7. 如何在整个代码中处理Android ActionBar代码?
- 8. 使用Hadoop将文本文件中的段落处理为单个记录
- 9. 用hadoop处理非常小的文件
- 10. 最好的方式来写理解和Python友好代码
- 11. 在python中使用线程处理多个最终用户
- 12. 什么是最好的Python Zip模块来处理大文件?
- 13. 在Hadoop中处理日期
- 14. 在整个代码中使用int
- 15. 在Python中使用rpy2软件包:Rruntime错误未被用户代码处理
- 16. 使用配置文件记录Python - 使用文件中定义的处理程序通过代码
- 17. Python中的文件处理:被另一个进程使用
- 18. Python中处理多个文件
- 19. 使用处理库 - 在处理草图中的Java文件中?
- 20. 在Python中处理大文件的最快方法
- 21. 有没有更好的方法来处理python中的文件编码?
- 22. hadoop中的XML处理
- 23. 多处理和python代码
- 24. 在批处理文件中进一步使用python的结果
- 25. 处理HADOOP中的最后一个数据块
- 26. Python中文件的最大整数
- 27. 在python代码中编辑JavaScript文件中的代码
- 28. 在Python中处理Excel文件
- 29. 在python中处理文件路径
- 30. 在python中处理大型XLSX文件
谢谢你的回答。阅读Hadoop中的文件拆分,我发现标准拆分大小为64 MB。我的文件很小(几百KB),并装入HAR中。这是否意味着他们不会分裂,并且实际上是每个地图任务处理一个?甚至几个地图任务(因为HAR)? – jan
不,har不会减少地图的数量。您需要使用MultiFileInputSplit。如果您使用Pig,Pig会自动合并从0.8开始的小文件(http://pig.apache.org/docs/r0.9.0/perf.html#combine-files)。 –