SparkML梯度推进分类器鉴于以下RDD如何培养给予RDD
training_rdd = rdd.select(
# Categorical features
col('device_os'), # 'ios', 'android'
# Numeric features
col('30day_click_count'),
col('30day_impression_count'),
np.true_divide(col('30day_click_count'), col('30day_impression_count')).alias('30day_click_through_rate'),
# label
col('did_click').alias('label')
)
我感到困惑的语法训练梯度推进分类器。
但是,我不确定如何将我的4个特征列放入向量中。因为VectorIndexer假定所有功能都已在一列中。
链接教程假设一个'DataFrame',而不是一个'RDD'虽然。 – mtoto