先验在WEKA

我是新来的所有这些数据挖掘，WEKA工具等，先验在WEKA

在我的学术项目，我必须处理错误报告。我有他们在我的SQL Server。我采用了Bug摘要属性和应用的标记化，停止删除词语和词干技术。

摘要中的所有词干单词都存储在数据库中;分离。现在我需要通过使用WEKA工具来应用频繁模式挖掘算法并找出频繁项目集。我有这样的arff文件。

@relation ItemSets 

@attribute bugid integer 
@attribute summary string 

@data 
755113,enhanc;keep;log;recommend;share 
759414,access;review;social 
763806,allow;intrus;less;provid;shrunken;sidebar;social;specifi 
767221,datacloneerror;deeper;dig;framework;jsm 
771353,document;integr;provid;secur;social 
785540,avail;determin;featur;method;provid;social;whether 
785591,chat;dock;horizont;nest;overlap;scrollbar 
787767,abus;api;implement;perform;runtim;warn;worker

在Weka中打开它，WEKA Explorer中的副标签下后，我无法启动处理（开始按钮被禁用）与先验选择。

现在请建议我如何使用WEKA在摘要属性上查找频繁项目集。我需要认真的帮助。帮助将不胜感激。提前致谢！

来源

2017-04-06 Anurag

Apriori在Weka中无法使用您的文件的原因是Apriori只允许标称属性值。你想找什么样的规则？你能举一个你想获得的规则的例子吗？

values_you_want_to_be_the_antecedent_part_of_your_rule ==> values_you_want_to_be_the_consequent_part_of_your_rule

改变你的属性标称这样

@relation ItemSets 

@attribute bugid {755113, 759414, 763806} 
@attribute summary {'enhanc;keep;log;recommend;share', 'access;review;social', 'allow;intrus;less;provid;shrunken;sidebar;social;specifi'} 

@data 
755113,'enhanc;keep;log;recommend;share' 
759414,'access;review;social' 
763806,'allow;intrus;less;provid;shrunken;sidebar;social;specifi'

只会给你的规则一样

bugid=755113 1 ==> summary=enhanc;keep;log;recommend;share 1 <conf:(1)> lift:(3) lev:(0.22)

如果你正在寻找的总结词中频繁项集的错误ID是无关紧要，你可以从你的文件中删除它。 Apriori用于获得关联规则，例如enhanc, keep给出支持X和置信度Y的log。要查找频繁项目集，您需要重构数据，以便每个汇总词都是值为true/false或true/missing的属性，请参阅this问题。

请在Weka中尝试以下文件。选择关联，选择Apriori，双击选择按钮旁边的白色输入字段。在那里，将outputItemSets设置为true。在控制台输出中，您将看到所有频繁的项目集和所有不受支持的规则。

@relation ItemSets 

@attribute enhanc {true} 
@attribute keep {true} 
@attribute log {true} 
@attribute recommend {true} 
@attribute share {true} 
@attribute access {true} 
@attribute review {true} 
@attribute social {true} 
@attribute allow {true} 
@attribute intrus {true} 
@attribute less {true} 
@attribute provid {true} 
@attribute shrunken {true} 
@attribute sidebar {true} 
@attribute specifi {true} 


@data 
true,true,true,true,true,?,?,?,?,?,?,?,?,?,? 
?,?,?,?,?,true,true,true,?,?,?,?,?,?,? 
?,?,?,?,?,?,?,true,true,true,true,true,true,true,true

问题?代表缺失值。

来源

2017-04-10 14:57:44 Percolator

我只是想为给定的支持计数和信心频繁项目集。此外，我不能去名义属性，因为我的bugid是自动递增的，并且摘要不能来自特定的一组属性。它可以是由任意数量的单词组成的任何字符串。 – Anurag

你能给我一个你想获得的规则的例子吗？ – Percolator

enhanc，浏览器，这样的js我想要2个项目设置三个项目设置等。 – Anurag

回答

相关问题