我阅读: http://spyced.blogspot.com/2009/01/all-you-ever-wanted-to-know-about.htmlBloomfilter和Cassandra =为什么使用和为什么散列几次?
我的问题:
1)它是正确的,那卡桑德拉仅使用布隆过滤器,找出SST(排序字符串表),这极有可能包含的关键?由于可能有几个SST和Cassandra不知道哪个SST可能是关键?所以为了加快这个速度,在所有SSTs中使用bloomfilters。它是否正确? (我想了解卡桑德拉是如何工作的?)
2)为什么(在上面的链接)键哈希几次解释呢?是否正确,密钥需要用不同的哈希函数多次哈希,以获得更好的“比特的随机分布”?如果这是错误的,为什么一个密钥需要被多次散列?这会花费CPU周期吗?如果我有几个哈希函数的输出,那么结果是做什么的,它们是“与”还是“异或”。这有什么区别吗?
3)使用MD5多大的“费尔斯阳性使用布隆过滤器”相比,SHA1(其中根据物品不同的是随机分布的)?为什么MD5不是随机分布的?
非常感谢! 延
非常感谢! (我用我的母语阅读了一篇关于bloomfilters的文章,似乎将一些步骤放在一起以便于解释,现在我真正理解它如何与职位合作,这要感谢您的解释和链接。非常感谢! – jens 2011-05-01 20:25:06