2016-01-11 48 views
1

我开始使用arulesSequences,目的是对我拥有的某些数据执行频繁序列挖掘。用于商店A中的数据看起来像下面:Apriori,arulesSequences,in R:它是否支持“篮子”的顺序(单一购物旅行中的顺序无关紧要)?

CUSTOMER_ID SEQ_NUM尺寸bought_items

1 17399 1 2 {100100}

2 17399 2 1 {800}

3 17399 3 2 {900900 }

4 17399 4 1 {405}

5 17399 5 4 {200505200505}

这意味着什么这个客户#17399多次与这家商店A一起购物。在他/她第一次购物时,此人购买了物品代码为100和100(2件物品)的物品。在他/她的第二次购物行程中,该顾客仅购买了物品800.以此类推。

现在我想用cSPADE这个客户,其中为了不事关一个“篮子”里,但整个购物之旅事情做。所以,最终我的客户17399的记录是:

CUSTOMER_ID bought_items

17399 {(100,100),800(900900),405(200505200505)}

其中{}包含完整的序列和()代表每次购物之旅。

我一般理解,这是一个possibility.However,我还没有看到任何实例(搜索了几个小时)或笔记明确地谈论arulesSequences支持这一点。有什么想法吗?将不胜感激的帮助。

谢谢你的时间。

回答

1

几个小时的学习后,我加入,我找到了答案,如果它是有用的人。

答案是肯定的 - 包确实有跨篮重复项目的支持。事实上这个网站上的例子:https://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Sequence_Mining/SPADE显示了这种情况。虽然在这个例子中没有两个序列号(属于同一事务)是相同的,但是有重叠的元素。即使它们是相同的(我使用示例输入.txt),使用read_basket和cSPADE时也没有错误,这正是我试图应用的。

很多例子在那里在网络上是先验,为此,该重复一个筐内的项目的是不允许的。这造成了很多混乱。上面粘贴的例子是一个很好的例子,它显示了使用cSPADE。希望这有助于人们在那里。