9

如何计算大型(> 10TB)数据集(可能采用分布式方式)的皮尔森互相关矩阵?任何有效的分布式算法建议将被赞赏。分布式互相关矩阵计算

更新: 我看了阿帕奇火花MLIB相关

Pearson Computaation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala 
Covariance Computation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala 

的实现,但对我来说,它看起来像所有的计算是在一个节点上发生的事情,它不是分布在真正意义上的。

请在这里放一些灯。我也尝试了3点火花集群上执行它,以下是截图:

Entire Computation timeline One the task details

你可以从第二图象数据是在一个节点拉高,然后计算正在做看看。我在这里吗?

回答

5

首先,看看this,看看事情是否正确。然后您可以参考这些实现中的任何一个:MPI/OpenMP:AgomezlMeismyles,MapReduce:VangjeeSeawolf42。在继续之前,阅读this也很有趣。另一方面,James's thesis提供了一些指标,如果您有兴趣计算对异常值强大的相关性。

+0

谢谢你指点我的詹姆斯的论文。如果你也可以回答这个问题,那将是非常好的:http://stackoverflow.com/questions/42428424/how-to-calculate-mean-of-distributed-data –

+0

James论文谈论Maronna和Quadrant协方差计算,但是我不能能够理解这两种算法,你知道这两种算法的解释。 –