2013-04-05 62 views
0

我有一个Excel电子表格,其中每列都是某个变量。在我的列的最后,我有一个特殊的最后一列,名为“类型”,可以是A,B,C或D.Microsoft Excel 2003中的相关性/数据挖掘

每行都是一个数据点,它有不同的变量,桶(A/B/C/D)记录在最后一栏。

我需要一种方法来检查某个类型(比如“C”或“C”|“D”)的所有条目,并找出哪个变量是最后一列的一个好预测器,哪一个比其他预测更好。

某些变量是数字,其他变量是固定字符串(来自一组字符串),所以它不仅仅是数字/数字的相关性。

Excel 2003是一个很好的工具吗,还是有更好的统计程序,使这更容易?我是否为每个类别创建了Pivot/Histogram,还是有更好的方法来运行这些查询?谢谢

回答

0

你可以进行一些过滤,尤其是使用Microsoft Excel来清理数据(我的意思是将数据值更改为一种类型,字符串或数字)。 Execl也进行一些数据挖掘。但是,对于您所遇到的问题,我建议您的一个好工具是WEKA。使用此工具,可以对所有数据实例(行)进行关联分类预测(即类关联规则挖掘),因此您可以确定哪些项属于A/B/C/D。您的特殊属性将是您的班级属性。