什么是Weka的InfoGainAttributeEval公式用于评估连续值的熵？

我使用Weka的信息增益的属性选择功能，我试图找出Weka在处理连续数据时使用的具体公式。什么是Weka的InfoGainAttributeEval公式用于评估连续值的熵？

我理解熵的常用公式为this，因为数据中的值是离散的。我明白，在处理连续数据时，可以使用微分熵或离散值。我试着看着Weka对InfoGainAttributeEval的解释，并且已经浏览了很多其他的参考资料，但找不到任何东西。

也许它只是我，但谁会知道Weka如何实现这种情况？

谢谢！

2016-02-27 eddybear

我请作者马克·霍尔，他说：

它采用法亚德和伊拉尼的监督基于MDL-离散化方法。查看javadoc：
http://weka.sourceforge.net/doc.stable-3-8/weka/attributeSelection/InfoGainAttributeEval.html

还可以看到这个链接的离散化方法：

2016-08-29 20:44:00 Jorge

这可能有点晚，但非常感谢你的信息和精力！没有看到Discretize功能。 – eddybear

回答