我得到一个0到1之间的(实时快速)实时数据点流,并需要将它们分类为“桶”。如何在实时流中平均出概率分布?
假设有一个0.6即将到来,我的桶分别覆盖了0.25的面积。这意味着0.6进入第三桶。但是,当0.6左右出现很多数字时,他们最终都会陷入第三桶,这很糟糕。
我想更改四个桶所覆盖的区域,以便每个桶具有相同的命中概率。例如,可能会更好地使第一个覆盖0-0.5,第二个0.5-0.6,一个0.6-0.65和最后一个0.65-1。
问题是,我无法存储值 - 只有哪些桶被多次击中。那么这是否有一个工作更新公式?!
非常感谢您提前!
我想你想要一个等宽直方图的流式算法。以下是一份调查报告,以帮助您入门:http://paul.luon.net/papers/AA-Space-Efficient-Alg.pdf – Ron
输入点数量是否有限制?水桶是否重置或丢弃旧点? – AShelly
目标是准确的直方图还是简单的负载平衡? – AShelly