我有两个数据集 数据集1: id a b c d
1 0.3 0.1 0.2 0.2
2 0.2 0.3 0.3 0.4
3 0.2 0.4 0.7 0.7
....
dataset2 id x
1 8
2 4
3 10
....
我愿做一个操作,使用数据集2中的“x”列乘以数据集1中的每列,敌人每个ID,以便期望的输出是: id a b c d
1 2.4 0.8
我们需要在spark中计算大量数据集合中的距离矩阵,如jaccard。 面对几个问题。请帮助我们提供指导。 1期 import info.debatty.java.stringsimilarity.Jaccard;
//sample Data set creation
List<Row> data = Arrays.asList(
RowFactory.crea