我是新来的所有这些数据挖掘,WEKA工具等,先验在WEKA
在我的学术项目,我必须处理错误报告。我有他们在我的SQL Server。我采用了Bug摘要属性和应用的标记化,停止删除词语和词干技术。
摘要中的所有词干单词都存储在数据库中;分离。现在我需要通过使用WEKA工具来应用频繁模式挖掘算法并找出频繁项目集。我有这样的arff文件。
@relation ItemSets
@attribute bugid integer
@attribute summary string
@data
755113,enhanc;keep;log;recommend;share
759414,access;review;social
763806,allow;intrus;less;provid;shrunken;sidebar;social;specifi
767221,datacloneerror;deeper;dig;framework;jsm
771353,document;integr;provid;secur;social
785540,avail;determin;featur;method;provid;social;whether
785591,chat;dock;horizont;nest;overlap;scrollbar
787767,abus;api;implement;perform;runtim;warn;worker
在Weka中打开它,WEKA Explorer中的副标签下后,我无法启动处理(开始按钮被禁用)与先验选择。
现在请建议我如何使用WEKA在摘要属性上查找频繁项目集。我需要认真的帮助。帮助将不胜感激。提前致谢!
我只是想为给定的支持计数和信心频繁项目集。此外,我不能去名义属性,因为我的bugid是自动递增的,并且摘要不能来自特定的一组属性。它可以是由任意数量的单词组成的任何字符串。 – Anurag
你能给我一个你想获得的规则的例子吗? – Percolator
enhanc,浏览器,这样的js我想要2个项目设置三个项目设置等。 – Anurag