1

我想用Spark的LinearRegressionWithSGD来预测国家&设备的价格。在查看Spark MLLib的feature extraction section之后,我有点不清楚应该如何散列这些特性。一个例子纪录是:(前murmur哈希)火花线性回归特征哈希

{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"} 

我试过几个散列技术,但他们似乎都被垃圾权重(如NaN,PositiveInfinity时等)或重量朝向10的趋势^ 200+。 Spark MLLib中是否有任何成功哈希标记的功能?

+2

为什么和你需要做什么散列? –

+0

看起来你需要的是比哈希更热的东西。 – zero323

回答

0

对该国进行散列可能会混淆无关的观察结果。您可以在设备上使用simhash,并在国家/地区 - 上进行精确比较(不区分大小写)。横跨两者的散列方法变量可能适用于集群,但不可能进行回归。

为每个国家创建单独的曲线,并且您可能会将simhash应用于移动设备。