1
我有两个数据集与下面的数据文件(〜每个文件500个millinons线):找到差异的两个数据集用Hadoop
Dataset1:
a1
a2
a3
a4
Dataset2:
a1
a2
我想找到dataSet1的元素未在现有Dataset2 所以,结果应该是:
Dataset3
a3
a4
有什么用Hadoop做到这一点的最好方法是什么?任何与联系有关的机制,或猪,还是其他?谢谢。