分布式互相关矩阵计算

如何计算大型（> 10TB）数据集（可能采用分布式方式）的皮尔森互相关矩阵？任何有效的分布式算法建议将被赞赏。分布式互相关矩阵计算

更新：我看了阿帕奇火花MLIB相关

Pearson Computaation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala 
Covariance Computation: 
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala

的实现，但对我来说，它看起来像所有的计算是在一个节点上发生的事情，它不是分布在真正意义上的。

请在这里放一些灯。我也尝试了3点火花集群上执行它，以下是截图：

你可以从第二图象数据是在一个节点拉高，然后计算正在做看看。我在这里吗？

来源

2017-02-17 Roshan Mehta

首先，看看this，看看事情是否正确。然后您可以参考这些实现中的任何一个：MPI/OpenMP：Agomezl或Meismyles，MapReduce：Vangjee或Seawolf42。在继续之前，阅读this也很有趣。另一方面，James's thesis提供了一些指标，如果您有兴趣计算对异常值强大的相关性。

来源

2017-02-23 01:02:29 dangiankit

谢谢你指点我的詹姆斯的论文。如果你也可以回答这个问题，那将是非常好的：http://stackoverflow.com/questions/42428424/how-to-calculate-mean-of-distributed-data –

James论文谈论Maronna和Quadrant协方差计算，但是我不能能够理解这两种算法，你知道这两种算法的解释。 –

分布式互相关矩阵计算

回答

相关问题