火花线性回归特征哈希

我想用Spark的LinearRegressionWithSGD来预测国家&设备的价格。在查看Spark MLLib的feature extraction section之后，我有点不清楚应该如何散列这些特性。一个例子纪录是：（前murmur哈希）火花线性回归特征哈希

{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"}

我试过几个散列技术，但他们似乎都被垃圾权重（如NaN，PositiveInfinity时等）或重量朝向10的趋势^ 200+。 Spark MLLib中是否有任何成功哈希标记的功能？

2016-03-01 Steve

为什么和你需要做什么散列？ –

看起来你需要的是比哈希更热的东西。 – zero323

对该国进行散列可能会混淆无关的观察结果。您可以在设备上使用simhash，并在国家/地区 - 上进行精确比较（不区分大小写）。横跨两者的散列方法变量可能适用于集群，但不可能进行回归。

为每个国家创建单独的曲线，并且您可能会将simhash应用于移动设备。

2016-03-04 16:42:55 javadba

回答