我想了解先验(篮)算法的基本原理在数据挖掘应用,频繁集和关联规则 - Apriori算法
这是最好的,我解释我跟一个例子具有并发症:
这里是一个事务性数据集:
t1: Milk, Chicken, Beer
t2: Chicken, Cheese
t3: Cheese, Boots
t4: Cheese, Chicken, Beer
t5: Chicken, Beer, Clothes, Cheese, Milk
t6: Clothes, Beer, Milk
t7: Beer, Milk, Clothes
的最小支持度为上面是0.5或50%。
从上面的考虑,我交易数量显然是7,意为一个项集是“频繁”,它必须有4/7计数。因此,这是我的频繁项集1:
F1:
Milk = 4
Chicken = 4
Beer = 5
Cheese = 4
然后我创建了候选人第二细化(C2),并把范围缩小到:
F2:
{Milk, Beer} = 4
这是我困惑的地方,如果我被要求显示全部频繁项目组我是否全部写下F1
和F2
或者只是F2
? F1
对我来说不是“套”。
我接着问到创建我刚才定义的频繁项集关联规则,并计算出它们的“自信”的数字,我得到这个:
Milk -> Beer = 100% confidence
Beer -> Milk = 80% confidence
这似乎是多余的把F1
的项目集在这里因为他们都会有100%的信心,不管实际上什么都不“联合”,这就是我现在质疑F1
是否确实“频繁”的原因?
空集也是一个集合。并且有一组有1个元素。它们可以是频繁项目集,而不会提供有用的*关联规则*。 –