9
如何计算大型(> 10TB)数据集(可能采用分布式方式)的皮尔森互相关矩阵?任何有效的分布式算法建议将被赞赏。分布式互相关矩阵计算
更新: 我看了阿帕奇火花MLIB相关
Pearson Computaation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/stat/correlation/Correlation.scala
Covariance Computation:
/home/d066537/codespark/spark/mllib/src/main/scala/org/apache/spark/mllib/linalg/distributed/RowMatrix.scala
的实现,但对我来说,它看起来像所有的计算是在一个节点上发生的事情,它不是分布在真正意义上的。
请在这里放一些灯。我也尝试了3点火花集群上执行它,以下是截图:
你可以从第二图象数据是在一个节点拉高,然后计算正在做看看。我在这里吗?
谢谢你指点我的詹姆斯的论文。如果你也可以回答这个问题,那将是非常好的:http://stackoverflow.com/questions/42428424/how-to-calculate-mean-of-distributed-data –
James论文谈论Maronna和Quadrant协方差计算,但是我不能能够理解这两种算法,你知道这两种算法的解释。 –