如果我使用distcp复制2个群集中的数据,它是复制所有复制副本还是仅复制1个副本的数据并将其复制到新群集中?例如,我尝试从复制因子(RF)为3的群集中复制3gb的数据。distcp是否会复制完整的3gb数据,或者是否知道由于RF是3,它需要移动只有1GB(一个副本)的数据。最后在目标群集上查看RF并相应地复制数据。Hadoop distcp复制副本
0
A
回答
4
原始数据大小很重要。如果原始数据为1 GB,则复制因子= 3时最多需要3 x 1 GB。将数据从一个群集复制到另一个群集时,原始数据很重要。只有原始的1 GB数据将被复制到目标群集。
HDFS在内部处理块的复制。它会注意到集群上的新数据并相应地复制这些数据块,这些数据块被复制不足,即具有比RF更少的副本。
1
当您使用distcp进行复制时,只会复制/复制实际数据(即1份数据)。复制将由框架处理,就像在将新数据写入HDFS时的处理方式一样。除此之外,对于2个群集之间的distcp,还可以指定是否要在源处保留复制因子。
相关问题
- 1. Hadoop Distcp是否在块级复制?
- 2. 具有不同复制因子的簇之间的hadoop distcp
- 3. XSLT复制副本
- 4. 使用通配符的Hadoop DistCp?
- 5. 带文件列表的Hadoop distcp
- 6. Hadoop:为distcp指定纱线队列
- 7. 'distcp'和'distcp -update'之间的区别?
- 8. 如何复制/制作JfreeChart的副本?
- 9. 复制到S3的位置使用DistCp使用命令
- 10. Hadoop将本地文件复制到HDFS?
- 11. 跳过复制副本上的文件
- 12. 复制性和Block_copy(myBlock)/ [myBlock副本]
- 13. 复制文本文件并用输出文本填充副本
- 14. Hadoop distcp命令使用不同的S3目标
- 15. 从s3到hadoop的distcp - 文件未找到
- 16. 使用Distcp在Hadoop中进行数据摄取
- 17. 如何使用copyWithZone制作深层副本以复制结构?
- 18. 修复NSManagedObject的重复副本
- 19. Hadoop灾难恢复
- 20. 恢复项目的本地副本
- 21. 制作电路板副本
- 22. iframe追加制作副本
- 23. 制作共享副本ios
- 24. UIPrintInteractionController - 限制打印副本/获取打印副本数
- 25. Hadoop的:错误而复制文件的本地目录到HDFS
- 26. 如何更新sybase中的复制副本?
- 27. 复制构造错误,没有明显的副本
- 28. Python:词典,如何复制和更新第二个副本?
- 29. MySQL中有多个表的副本中的复制master-slave
- 30. Windows批处理文件复制并保留副本