通过任何时间范围分析计算唯一身份访问者数量？

我们有一个用例，我们希望在任何时间范围（小时粒度）中报告我们应用中的唯一身份访问者。例如：假设在第0小时我们有下列访问者{A，B，C，D}，在第1小时我们有{C，D，E，F}，在第2小时我们有{E，F，A ，B}，在第3小时我们有{A，C}。我们需要回答在1小时和3小时之间有多少独立访客，同时应该能够在0小时到3小时之间回答独特访客的数量。通过任何时间范围分析计算唯一身份访问者数量？

当然，我们不能保存所有唯一的访客ID，但我们可以保存给定小时的BloomFilter。

我打算使用包含排除属性来计算工会，但希望看看是否有任何框架或某个人有一个很好的解决方案。

大数据技术：我们有hdfs设置，蜂巢和Spark，Kafka。

来源

2017-04-05 Girish Subramanian

在我每个小时的当前解决方案中，我计划计算新访客与前几小时相比。处理第5小时数据的示例中，我打算计算以下内容：1.第5小时的唯一访问者，第5小时的新访问者不在第4小时。3.第5小时的新访问者不在小时内3和小时4等...... –

你应该看看火花流，它有许多内置的[转换和窗口操作]（http://spark.apache.org/docs/latest/streaming-programming- guide.html＃transformations-dstreams）您的用例需要。 –

您可以使用HyperLogLog算法。 HyperLogLog草图非常节省空间，可以轻松合并构建联合。见http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf。

来源

2017-04-05 12:13:03 otmar

通过任何时间范围分析计算唯一身份访问者数量？

回答

相关问题