0

我正在Linear Regression建模PySpark,并有疑问regrading。我有的数据有categorical features。我通过文件继续PySparkLinear Regression的例子显示了这一点:如何将分类特征传递给PySpark MLlib中的线性回归建模?

model = LinearRegressionWithSGD.train(parsedData) 

它不显示如何通过categorical featuresLinear Regression。我曾在Random Forest,PySpark之前,我在那里我第一个encodedcategorical features,然后将这些功能传递给模型,因为Random Forest提供了一个parameter来指定categorical featuresLinear Regression在文档中不显示任何此类参数。

谁能帮我提供我的方式传递给categorical feature造型Linear RegressionPySparkMLlib

回答

1

要使用分类功能时预计的数值功能,您可以使用虚拟编码。为此,MLLIB有oneHotEncoder

+0

我知道使用分类特征我需要做的编码。我的麻烦是如何将这些编码特征传递给模型?在MLlib的'Random Forest'模型中,有一个特殊的参数,如'model = RandomForest.trainRegressor(label_points,categoricalFeaturesInfo = {} numTrees = 50,featureSubsetStrategy =“auto”,杂质='方差',maxDepth = 10,maxBins =)'。但是我在线性回归模型 –

+0

中没有看到任何这样的参数。您看不到像这样的参数,因为它是一个线性模型,它只能使用数值变量(因此编码),对于源而言无关紧要。 – zero323

+0

一旦你对它们进行了编码,它们就不是分类特征,它们是“常规”特征,所以你不需要做任何特殊的事情来传递它们。 –

相关问题