1
我有一个包含密集向量的DataFrame列。我想一个这些矢量的最大值设置为1且取代所有其余为0。 例如:找到一个密集向量的最大值将其设置为1,其余所有设置为0 [pyspark]
+------+-------------+
| Col1| vector|
+------+-------------+
|Modali|[1.0,2.0,3.0]|
|assert|[4.0,9.0,3.0]|
+------+-------------+
我想将其变为:
+------+-------------+
| Col1| vector|
+------+-------------+
|Modali|[0.0,0.0,1.0]|
|assert|[0.0,1.0,0.0]|
+------+-------------+
注意我正在使用python开发Spark 2.1.0。 非常感谢你提前。
这工作,非常感谢 – abdelkarim