2013-05-14 82 views
2

我想用Apriori来对交易数据进行亲和度分析。我有一张带有订单和他们信息列表的表格。我主要是需要用OrderID和产品ID属性,其是在以下格式Weka Apriori算法

订单ID的ProductID
1的
1乙
图1C
2甲
2 C
3甲

Weka要求您为每个产品ID创建一个名义属性,并使用如下所示的true或false值指定项目是否存在于订单中:

1,TRUE,TRUE,TRUE
2,TRUE,FALSE,TRUE
3,TRUE,FALSE,FALSE

我的数据集包含约10K记录... 3K左右不同的产品。任何人都可以建议一种方法来创建这种格式的数据集? (除了手动耗时的方式...)

回答

0

如何编写一个脚本来转换它?

一个好的脚本语言(如Python)应该少于10行。

或者您可以根据需要查看旋转关系的选项。

无论哪种方式,这是一个直接的编程任务,所以我没有看到你的问题在这里。

+0

嗯,我是一个刚刚开始尝试这些东西的学生,所以它看起来不像是一个“简单的编程任务”可能还有其他很多其他人,因为我看起来非常类似的未解答的问题。那谢谢啦。 – user2275504 2013-05-16 09:09:03

+0

是的,这里有很多题外话题。该网站是编程问题,你显然还没有尝试用自己的简单代码解决这个问题。 – 2013-05-16 17:00:08

0

您显然需要转换您的数据。最简单的方法:编写一个软件,以您最熟悉的编程语言读取文件,然后以适当的格式写入文件。由于它是文本文件,所以不应该太复杂。顺便说一句,如果你想在Weka中使用更多的模式挖掘和关联挖掘算法,那么你可以检查我的软件SPMF(http://www.philippe-fournier-viger.com/spmf/),它也是Java的,也可以读取ARFF文件,并提供大约50个算法专业从事模式挖掘(先验FPGrowth,和其他许多人。

0

你的数据是正确的格式,用于开发使用ARULES包R中实现(先验函数)。你可能会考虑检查出来,尤其如果你”无法进入脚本编码