我正在构建一个用于零售目的的推荐系统。我使用python和Spark。在两个巨大的RDD上加入或减去密钥
我想减去我的预测也出现在收视率(所以我只预测用户之前从未买过的产品的价值)的所有用户产品组合。
那些2名RDD的是相当大的,并给了我记忆的问题上每个工作节点28GB(3个节点),当我做
filter_predictions = predictions.subtractByKey(user_boughtproduct)
当我读到星火subtractByKey的文档是最佳使用1时大和1小rdd。
我不能使user_boughtproduct更小(除非我循环它),但我可以做出。
filter_predictions = predictions.join(user_nonBoughtProduct)
任何想法上他们是快或最佳实践的?或者另一个更清洁的解
我明白了。有关其他方法的任何提示? – Kevin
你需要确切的结果吗? – zero323
优选是。 – Kevin