pyspark中数学和numpy函数之间的区别

当使用numpy函数代替数学函数时，为什么pyspark表现不同？例如pyspark中数学和numpy函数之间的区别

X = sc.parallelize([[DenseVector([4.9, 3.0, 1.4, 0.2]), DenseVector([4.6, 3.1, 1.5, 0.2])],[DenseVector([5.1, 3.5, 1.4, 0.3]), DenseVector([5.7, 3.8, 1.7, 0.3])]]) 
X_df = sqlcontext.createDataFrame(X, ["x","y"]) 
udf_foo = udf(lambda x, y: m.exp(-x.squared_distance(y)/2.0), DoubleType()) 
X_sim = X_df.withColumn("sim", udf_foo(X_df.x, X_df.y)) 

X_sim.show()

输出

+-----------------+-----------------+------------------+ 
|    x|    y|    sim| 
+-----------------+-----------------+------------------+ 
|[4.9,3.0,1.4,0.2]|[4.6,3.1,1.5,0.2]|0.9464851479534836| 
|[5.1,3.5,1.4,0.3]|[5.7,3.8,1.7,0.3]|0.7633794943368529| 
+-----------------+-----------------+------------------+

而代码下面

udf_foonp = udf(lambda x, y: np.exp(-x.squared_distance(y)/2.0), DoubleType()) 
X_simnp = X_df.withColumn("sim", udf_foonp(X_df.x, X_df.y)) 

X_simnp.show()

给出错误

expected zero arguments for construction of ClassDict

来源

2017-08-30 ashwinids

由于返回类型是不同的：

type(np.exp(1.0)) 
## numpy.float64 

type(math.exp(1.0)) 
## float

和NumPy的类型不能为SQL类型的合法的外部表现。因此你必须演员：

udf(lambda x, y: float(np.exp(-x.squared_distance(y)/2.0)), DoubleType())

来源

2017-08-30 15:20:02 zero323

pyspark中数学和numpy函数之间的区别

回答

相关问题