查找频繁项集

凡|分裂套。基本上，例如行号2是这样的：

{{null}, {shop, atm}, {null}, {shop, atm}, {null}, {null}}

设定的顺序并不起任何作用：{shop, amt} == {atm, shop}。

我想要做的两件事情是什么：

1）寻找共同的模式和频繁项集。例如，设置{shop，atm}频繁出现在行1,2和4中。

2）找出哪些元素（或元素集）遵循哪些元素。例如，商店经常其次是其他店：{shop, atm}, {shop} - 行1和{店}，{店，ATM} - 行4

第一个问题可以用Apriori算法很容易解决，是吗？这很容易。但第二个问题呢？我该如何解决它？使用哪些算法？

2015-10-26 Bob

是的，Apriori会发现频繁的项目集合（即支持度高的集合）。 FP-Tree通常更好，因为它只需要两次通过数据。

第二部分，规则生成涉及到频繁项目集对，其中第一个是第二个超集。然后你可以形成一个规则，其中较小的集合是先行词，并且集合的差异是随后的。较大项目组的支持计数与较小项目的比值是规则的统计置信度。

这是所有相当基础的数据挖掘的东西，并在维基百科等中有很好的描述。Weka和R等软件包为您做了很多工作。

2015-10-26 20:18:33 beldaz

回答