1
我想用Spark的LinearRegressionWithSGD来预测国家&设备的价格。在查看Spark MLLib的feature extraction section之后,我有点不清楚应该如何散列这些特性。一个例子纪录是:(前murmur哈希)火花线性回归特征哈希
{"price": 3.37, "site_id" 12, "brand_id": 332, "brand_type": "axcssdsdac", "item_id": 36, "country": "US", "device": "mobile"}
我试过几个散列技术,但他们似乎都被垃圾权重(如NaN,PositiveInfinity时等)或重量朝向10的趋势^ 200+。 Spark MLLib中是否有任何成功哈希标记的功能?
为什么和你需要做什么散列? –
看起来你需要的是比哈希更热的东西。 – zero323