2017-04-05 92 views
0

我们有一个用例,我们希望在任何时间范围(小时粒度)中报告我们应用中的唯一身份访问者。例如:假设在第0小时我们有下列访问者{A,B,C,D},在第1小时我们有{C,D,E,F},在第2小时我们有{E,F,A ,B},在第3小时我们有{A,C}。我们需要回答在1小时和3小时之间有多少独立访客,同时应该能够在0小时到3小时之间回答独特访客的数量。通过任何时间范围分析计算唯一身份访问者数量?

当然,我们不能保存所有唯一的访客ID,但我们可以保存给定小时的BloomFilter。

我打算使用包含排除属性来计算工会,但希望看看是否有任何框架或某个人有一个很好的解决方案。

大数据技术:我们有hdfs设置,蜂巢和Spark,Kafka。

+0

在我每个小时的当前解决方案中,我计划计算新访客与前几小时相比。处理第5小时数据的示例中,我打算计算以下内容:1.第5小时的唯一访问者,第5小时的新访问者不在第4小时。3.第5小时的新访问者不在小时内3和小时4等...... –

+0

你应该看看火花流,它有许多内置的[转换和窗口操作](http://spark.apache.org/docs/latest/streaming-programming- guide.html#transformations-dstreams)您的用例需要。 –

回答

相关问题