2016-10-11 83 views
1

有这样的数据:什么是回归算法用于这种情况?

clientId zipCode codeHeatingType countingType consumptionProfile householdCount squareFootage 

01  75015 ELEC   P012   A400   6    25    

02  75002 GAZ    P011   A600   3    30    

和AvgConsumtion

clientId  AvgConsumption 
    01   300.5  (KWH) 
    02   400  (KWH) 

用什么机器学习根据客户特点Avgconsumption估算? LogisticRegression?,多标签分类?...

有没有可能有一个字符串列的例子?

回答

0

您需要一个预测连续变量的回归算法。您可以在示例中找到spark.mlhere中实施的回归算法列表。

分类预测变量可以使用非参数(非优化)Transformer(请参见http://spark.apache.org/docs/latest/ml-features.html)以各种方式转换。例如,OneHotEncoder将转换一组二元预测变量中的分类预测变量。 documentation提供了示例。

注意:请在尝试太多之前通知您机器学习的一些基本知识。有一系列纯粹是统计性质的陷阱。对于具体问题,请问here

+0

是线性回归还是广义线性回归预测一个连续变量?如何知道它是否? –

+0

链接部分中的所有方法都是回归方法(参见内容表:http://spark.apache.org/docs/latest/ml-classification-regression.html)。但并不是所有的回归模型都会在你的情况下有意义。这不是一个语法问题,因此它不在StackOverflow的范围内(请参阅http://stackoverflow.com/help/on-topic) – Wilmerton

+0

我想知道哪些能够预测连续变量?并且更适合我的需要 –

相关问题