0
我想使用Java Spark根据它们的键比较两个JavaPairRDD,比较它们的值以查看相同的键是否具有完全相同的值。如何通过键比较两个JavaPairRDD并比较值?
现在,我只检查交集和并集的计数(),但是这是不够的,象下面这样:
JavaPairRDD<String, String> intersectionJavaPairRDD = hBaseJavaPairRDD.intersection(hiveJavaPairRDD);
JavaPairRDD<String, String> unionJavaPairRDD = hBaseJavaPairRDD.union(hiveJavaPairRDD).distinct();
if (intersectionJavaPairRDD.count() != unionJavaPairRDD.count()
|| hiveJavaPairRDD.count() != hBaseJavaPairRDD.count()) {
System.err.println(
"ERROR: SxS validation failed...");
System.exit(-1);
}
我如何可以比较每个值,当他们有相同的密钥?
非常感谢!
你可以使用combineByKey/AggregateByKey来比较值。 – Knight71