0
我有一个分层目录,每个目录中有很多文件,并且每个文本文件中都有很多URL字符串。我想要在Hadoop中的所有文件中下载所有URL以获得更好的平衡。例如,如果我有1 + 5个节点Hadoop集群和5个URL,那么是5个URL合一文件或1个URL每个文件(然后获取5个文件)作为输入获得更好的平衡?如何拆分输入集以获得更好的Hadoop余额?
我认为Hadoop会默认将输入集合分割为64M块来运行在单个节点上,不能运行全部5个从站。
谢谢你的回答!