我想为数字数据集使用属性选择。 我的目标是找到稍后用于线性回归预测数值的最佳属性。Weka属性选择 - 证明不同方法的不同结果
为了进行测试,我使用的是从here(数据集-numeric.jar) 获得使用ReliefFAttributeEval我得到以下结果的autoPrice.arff:
应用数字后Ranked attributes:
**0.05793 8 engine-size**
**0.04976 5 width**
0.0456 7 curb-weight
0.04073 12 horsepower
0.03787 2 normalized-losses
0.03728 3 wheel-base
0.0323 10 stroke
0.03229 9 bore
0.02801 13 peak-rpm
0.02209 15 highway-mpg
0.01555 6 height
0.01488 4 length
0.01356 11 compression-ratio
0.01337 14 city-mpg
0.00739 1 symboling
同时使用InfoGainAttributeEval(
额定过滤器)给我留下了以下结果:
Ranked attributes:
6.8914 7 curb-weight
5.2409 4 length
5.228 2 normalized-losses
5.0422 12 horsepower
4.7762 6 height
4.6694 3 wheel-base
4.4347 10 stroke
4.3891 9 bore
**4.3388 8 engine-size**
**4.2756 5 width**
4.1509 15 highway-mpg
3.9387 14 city-mpg
3.9011 11 compression-ratio
3.4599 13 peak-rpm
2.2038 1 symboling
我的问题是: 我怎么能在2个结果之间的辩解矛盾?如果这两种方法使用不同的算法来实现相同的目标(揭示属性与类的相关性),为什么一个人说例如引擎大小是重要的,另一个则说不太多!