2016-08-04 105 views
5

字符串实习生方法我看着从JavaDays代码,作者说,这种做法有可能是用于存储像模拟字符串转换为字符串实习生方法重复数据删除在ConcurrentHashMap的

public class CHMDeduplicator<T> { 
    private final int prob; 
    private final Map<T, T> map; 

    public CHMDeduplicator(double prob) { 
     this.prob = (int) (Integer.MIN_VALUE + prob * (1L << 32)); 
     this.map = new ConcurrentHashMap<>(); 
    } 

    public T dedup(T t) { 
     if (ThreadLocalRandom.current().nextInt() > prob) { 
      return t; 
     } 
     T exist = map.putIfAbsent(t, t); 
     return (exist == null) ? t : exist; 
    } 
} 

请给我解释一下,什么是非常有效的在这条线的概率的效果:

if (ThreadLocalRandom.current().nextInt() > prob) return t; 

这是从Java天原介绍https://shipilev.net/talks/jpoint-April2015-string-catechism.pdf (第56幻灯片)

+0

对我来说,它看起来像'如果(ThreadLocalRandom.current()nextInt()>概率。)'语句设计,使返回的字符串,不存储输入值在地图中,它取决于设定的概率。 – pacman

+0

如果'prob'很大,会发生什么?如果它很小,会发生什么? –

+0

@Oliver Charlesworth我想'prob'是概率百分比 – pacman

回答

8

如果你看一下下一个幻灯片具有与不同的概率数据的表格,或talk,你会看到/听到的理由:概率deduplicators平衡花在重复数据删除的字符串的时间,节省的内存来自重复数据删除。这样可以微调处理字符串所花费的时间,甚至可以在代码周围撒上低分辨率重复数据删除器,从而分摊重复数据删除成本。

(来源:这些都是我的幻灯片)

+0

另外,我很惊讶地听到来自JavaDays的演讲。我从未做过JavaDays。 –

+0

谢谢你的好解释,它真的澄清了情况。我犯了一个错误 - 我与Jpoint混淆了JavaDays。谢谢你关于弦乐教理问答的工作,这真是太神奇了。 – pacman

0

传递给构造函数的double值旨在成为0.0到1.0范围内的概率值。它被转换为一个整数,使得它下面的整数值的比例等于double值。

整个表达式被设计为以true评估,其概率等于构造函数参数的概率。通过使用整数数学,它会比使用原始的double值稍快。

实现的目的是有时它不会缓存String,而只是返回它。这样做的原因是CPU与内存性能的权衡:如果内存保存缓存过程导致CPU瓶颈,则可以调高“无操作”概率,直到找到平衡点。