0
我有一个数据集,随着时间的推移,表明某些用户所在的地区。从这个数据集中,我想计算他们在每个位置花费的夜晚的数量。通过“度过夜晚”,我的意思是:将用户看到的最后一个位置直到某一天的23h59;如果所有从该用户观察到的位置直到第二天的05:00,或者之后的第一个,如果还没有,则与前一天的最后一天相匹配,那就是在该位置花了一晚。如何根据在窗口中固定的列值增加计数器?
| Timestamp| User| Location|
|1462838468|49B4361512443A4DA...|1|
|1462838512|49B4361512443A4DA...|1|
|1462838389|49B4361512443A4DA...|2|
|1462838497|49B4361512443A4DA...|3|
|1465975885|6E9E0581E2A032FD8...|1|
|1457723815|405C238E25FE0B9E7...|1|
|1457897289|405C238E25FE0B9E7...|2|
|1457899229|405C238E25FE0B9E7...|11|
|1457972626|405C238E25FE0B9E7...|9|
|1458062553|405C238E25FE0B9E7...|9|
|1458241825|405C238E25FE0B9E7...|9|
|1458244457|405C238E25FE0B9E7...|9|
|1458412513|405C238E25FE0B9E7...|6|
|1458412292|405C238E25FE0B9E7...|6|
|1465197963|6E9E0581E2A032FD8...|6|
|1465202192|6E9E0581E2A032FD8...|6|
|1465923817|6E9E0581E2A032FD8...|5|
|1465923766|6E9E0581E2A032FD8...|2|
|1465923748|6E9E0581E2A032FD8...|2|
|1465923922|6E9E0581E2A032FD8...|2|
我猜我需要在这里使用Window功能,并且我用PySpark在过去其他的东西,但我在茫然,在这里开始感到有点。
非常感谢!我需要将我的头围绕在这,但它似乎是一个非常好的开始。 –