我得到这个在面试:模块的独立访客数
让我们假设你得到了任务:写一个模块,输入其网站访客的IP位址的无限流将指导 。
在任何时候模块应该能够快速回答,如何收集许多独特的用户(唯一性由IP地址 地址指定)。你怎么会在条件描述解决这个问题(详细)的方法 说:
一)它需要获得独立访问者的确切数额
b)用小的误差不超过3近似值-4%是可以接受的
你在这里看到什么解决方案?我发现关于流算法几个白皮书,但我不知道这是否是appliable在这种情况下与否:
http://www.cs.berkeley.edu/~satishr/cs270/sp11/rough-notes/Streaming.pdf http://en.wikipedia.org/wiki/Count-distinct_problem
如果我给了这个任务,我会指出a)和b)的要求是矛盾的。然后我会问我有多少记忆......以及“无限”流真的是多久。 – 2015-02-24 13:01:00
我们假设RAM是8 Gb。 – paus 2015-02-24 13:05:22