2
我有一个大文件包含> 10万行。我想使用MapReduce来获得重复的行。 我该如何解决这个问题? 感谢您的帮助使用MapReduce获取大文件中的重复记录
我有一个大文件包含> 10万行。我想使用MapReduce来获得重复的行。 我该如何解决这个问题? 感谢您的帮助使用MapReduce获取大文件中的重复记录
您需要利用MapReduce的默认行为是基于公共密钥对值进行分组的事实。
因此所需的基本步骤是:
尊敬的二元书呆子 感谢您的帮助,如果我使用行作为关键,我无法获取重复行的数量并打印所有重复值。 – 2012-07-31 03:04:43
请记住,值是根据具有相同的密钥进行分组的。所以,如果你有重复的行(键),你会看到多个值,这就是你将如何识别重复的行。这是一个非常标准的模式,用于这种事情。 – 2012-07-31 03:10:04
谢谢二元书呆子。 – 2012-07-31 04:04:37