2015-10-26 77 views
0

我有以下数据集: enter image description here查找频繁项集

|分裂套。基本上,例如行号2是这样的:

{{null}, {shop, atm}, {null}, {shop, atm}, {null}, {null}} 

设定的顺序并不起任何作用:{shop, amt} == {atm, shop}

我想要做的两件事情是什么:

1)寻找共同的模式和频繁项集。例如,设置{shop,atm}频繁出现在行1,2和4中。

2)找出哪些元素(或元素集)遵循哪些元素。例如,商店经常其次是其他店:{shop, atm}, {shop} - 行1和{店},{店,ATM} - 行4

第一个问题可以用Apriori算法很容易解决,是吗?这很容易。但第二个问题呢?我该如何解决它?使用哪些算法?

回答

1

是的,Apriori会发现频繁的项目集合(即支持度高的集合)。 FP-Tree通常更好,因为它只需要两次通过数据。

第二部分,规则生成涉及到频繁项目集对,其中第一个是第二个超集。然后你可以形成一个规则,其中较小的集合是先行词,并且集合的差异是随后的。较大项目组的支持计数与较小项目的比值是规则的统计置信度。

这是所有相当基础的数据挖掘的东西,并在维基百科等中有很好的描述。Weka和R等软件包为您做了很多工作。