如果我有6个数据节点,是它更快地把复制6,这样所有的数据会在我的所有节点复制这样的集群,而不必来回移动数据拆分查询(说在蜂巢)?我相信,如果你有3个复制,你把一个300GB的文件到HDFS,它分裂它只是在数据节点3,然后在6个节点需要用于它必须迁移数据的查询其他3个节点的数据不存在,造成较慢的响应..是否准确?将hdfs中的数据复制到所有节点上会更快吗?
0
A
回答
0
我理解你的方式,你所谈论的数据局部性。一般来说,数据局部性可以减少运行时间,因为它可以节省阻止网络传输的时间。但事实上,如果您没有打开“HDFS短路本地读取”(默认关闭,请访问here),MapTask也会通过TCP协议读取该块,这意味着通过网络,即使块和MapTask都在同一个节点上。
最近,我对hadoop和HDFS进行了优化,我们用SSD来代替HDD盘,但是我们发现效果不好,时间也不短。因为磁盘不是瓶颈,网络负载不重。根据结果,我们得出结论cpu非常重。如果你想让你清楚的知道Hadoop集群的情况,我建议你使用神经节监视集群,它可以帮助你分析你的集群bottleneck.please看到here。最后,hadoop是一个非常庞大而复杂的系统,磁盘性能,cpu性能,网络带宽,参数值以及还有很多要考虑的因素。如果你想节省时间,你有很多工作要做,而不仅仅是复制因素。
相关问题
- 1. 不将数据复制到所有客户端节点
- 2. HDFS单个节点复制
- 3. 我应该在群集的所有数据节点上运行`hdfs namenode -format`吗?
- 4. 将文件复制到HDFS时,如何控制文件所在的节点?
- 5. 如果一个节点在Cassandra中被替换,数据会自动复制到该节点上吗?
- 6. XSLT:根据名称空间复制节点上的所有子节点uri
- 7. HDFS排除AddblockRequestProto中的数据节点
- 8. 在XSLT中,如何将所有子节点的所有属性复制到xml的根节点?
- 9. 如何将Ansible节点的ssh密钥复制到Ansible上的所有节点上?
- 10. HDFS中哪个节点要求数据?
- 11. 如何将所有子节点原样复制到结果树?
- 12. HDFS数据导出错误:只能复制到0节点,而不是1
- 13. XSLT通过重复节点将节点中的值复制到另一节点
- 14. HDFS复制 - 数据存储
- 15. 将本地文件复制到hdfs需要在hdfs集群上?
- 16. HDFS行为:Datanodes up,但所有数据都转到一个节点(使用-copyFromLocal)
- 17. 将具有多个子节点的Firebase节点复制到另一个节点
- 18. XSLT - 复制所有节点并在复制的节点中添加额外的节点
- 19. 如何将数据行中的所有单元复制到会话?
- 20. 在3节点Cassandra集群中将复制因子设置为2;但是仍然有数据在插入时被复制到所有3个节点
- 21. 如何将表复制到DB2 DPF实例中的所有节点?
- 22. 将数据添加到NSDictionary ... SRSLY?没有更快的方法吗?
- 23. parLapply从内部功能将数据复制到节点意外
- 24. 将数据从一个子节点复制到另一个Firebase
- 25. 当节点数量少于复制因子时,HDFS如何复制?
- 26. 将数据从mongoDB复制到hdfs时出现hadoop jar错误
- 27. CSV数据导出/复制到HDFS将在怪异格式
- 28. SmartGWT复制部分树:将叶节点复制到其他TreeGrid的根节点
- 29. XSLT:仅将xml的少数节点复制到变量中
- 30. 返回数据到index.js节点快递
有一些地方在方程中丢失:如何快速是您的网络和磁盘,你经常打算读取数据? –
我相信它很快,因为它在Azure中,应该很好连接。根据VM统计数据,磁盘的容量为16x500 IOPS。这些数据将整天用于查询。 –
我不会建议你在VM磁盘上存储数据,因为它们真的很慢。你也应该在这些上使用Blob存储而不是HDFS。您只需使用HDInsight即可免费获得所有这些内容。 –