2016-11-17 115 views
2

我有一个方形pyspark RowMatrix,看起来像这样:Pyspark转换RowMatrix到数据帧或RDD

>>> row_mat.numRows() 
100 
>>> row_mat.numCols() 
100 
>>> row_mat.rows.first() 
SparseVector(100, {0: 0.0, 1: 0.0018, 2: 0.1562, 3: 0.0342...}) 

我想运行pyspark.ml.feature.PCA,但其fit()方法只需要在DataFrame。有没有办法将这RowMatrix转换为DataFrame

还是有更好的方法来做到这一点?

回答

1

用途:

row_mat.rows.map(lambda x: (x,)).toDF() 
+0

谢谢!这真的很快,正是我所期待的。 –