2015-10-15 170 views
0

中控制CutPoints(执行受监督装仓时)我正在使用R的“离散化”包。找到割点时,我得到以下结果。如何在R

命令:

discretization::cutPoints(data3$Dist_to_Stream, data3$Malaria_w3) 

其中Dist_to_Stream是数值和Malaria_w3的变量是类(分类)

[1] 5.118175 95.484400 119.386500 300.842000 311.320500 
[6] 338.104000 387.722500 460.783000 472.821500 551.741500 
[11] 910.745500 214.143000 234.124500 260.812000 358.513000 
[16] 361.015500 449.447500 538.411500 589.118500 626.888000 
[21] 657.261000 648.304500 698.310500 953.814500 1091.265000 
[26] 1181.350000 2023.885000 2040.360000 2069.390000 2201.395000 
[31] 2120.185000 2142.255000 2456.820000 2819.860000 

输出分割点太多(34个二进制位)。有监督(基于熵)分档时,有没有办法控制分割点的数量?

由于提前..

回答

0

discretization包的R的功能不提供任何这样的参数来控制箱(Discretization Documentation)的数目。这可以通过SPSS的Optimal Binning选项轻松完成。在执行分箱之前,可以设置箱的最大数量(仍然是监督分箱)。

欲了解更多信息 Optimal Binning