2010-06-16 102 views
8

我是新来的数据挖掘和混淆关联规则和频繁项目挖掘。对我来说,我认为都是相同的,但我需要在这个论坛上专家的观点关联规则挖掘和频繁项目挖掘有什么区别

我的问题是

就是关联规则挖掘&频繁项集挖掘的区别? 谢谢

回答

16

关联规则类似于“A,B → C”,这意味着当A和B发生时C往往会发生。一个itemset只是一个集合,比如“A,B,C”,并且如果它的项目倾向于共同出现,它就很频繁。 The usual way查找关联规则是查找所有频繁项集,然后将它们后处理成规则。

8

频繁项目集挖掘的输入是:

  • 交易数据库
  • 最小支持阈最小支持度

的输出是:

  • 的所有的集合项目集至少出现在minsup事务中。项目集只是一组无序的项目。

协会[规则挖掘的输入是:

  • 一个交易数据库
  • 最小支持度阈值最小支持度
  • 最小置信度阈值最小置信度

输出结果为:

  • 该集合的所有有效关联规则。关联规则X→Y是两个项目集X和Y之间的关系,使得X和Y不相交并且不是空的。有效的规则是支持高于或等于minsup并且置信度高于或等于minconf的规则。支持被定义为sup(x - > Y)= sup(X U Y)/(事务数量)。置信度定义为conf(x - > Y)= sup(X U Y)/ sup(X)。

现在,项目集和关联规则挖掘之间的关系是,使用频繁项集生成规则非常高效(请参阅Agrawal 1993年的论文)以获取关于此想法的更多细节。因此,关联规则挖掘将分为两步: - 挖掘频繁项目集 - 通过使用频繁项目集生成所有有效关联规则。

1

频繁项集挖掘是关联规则挖掘的一个步骤。在对数据应用频繁项目集挖掘算法(如Apriori,FPGrowth)之后,您将获得频繁项目集。从这些 发现频繁项目集,您将生成关联规则(通常由子集生成完成)。

4

频繁项集挖掘是关联规则挖掘的第一步。 生成所有频繁项目集后,您可以逐个遍历它们,逐个枚举所有可能的关联规则,计算它们的置信度,最后,如果置信度大于minConfidence,则输出该规则。