0
我有用户活动数据在购物平台的RDD在pyspark为:找到独特的元组
USER_ID | product_id | 事件(查看产品,购买,加入购物车等)
事情是可以有多个事件类型相同(user_id,product_id)元组。我想收集同一行中的所有这些事件。
例子:
╔═════════════════════════════════════════════════╗
║ user_id | product_id | Event ║
╠═════════════════════════════════════════════════╣
║ 1 1 viewed ║
║ 1 1 purchased ║
║ 2 1 added ║
║ 2 2 viewed ║
║ 2 2 added ║
╚═════════════════════════════════════════════════╝
我想:
╔════════════════════════════════════════════════╗
║ user_id | product_id | Event ║
╠════════════════════════════════════════════════╣
║ 1 1 {viewed, purchased} ║
║ 2 1 {added} ║
║ 2 2 {viewed, added} ║
╚════════════════════════════════════════════════╝
你看着使用内置'map'和'groupByKey'功能? – jtmingus