Weka的InfoGainAttributeEval公式是什么,用于评估具有连续值的熵?



我正在使用Weka的属性选择函数进行信息增益,我试图弄清楚Weka在处理连续数据时使用的具体公式是什么。

我知道熵的常用公式是当数据中的值是离散的时。我知道在处理连续数据时,可以使用微分熵或离散化值。我试过查看Weka对InfoGainAttributeEval的解释,并查看了许多其他参考资料,但找不到任何东西。

也许只有我,但有谁知道 Weka 是如何实施这个案子的?

谢谢!

我问作者马克·霍尔,他说:

它使用基于监督MDL的Fayad离散化方法和 伊朗人。请参阅javadocs:
http://weka.sourceforge.net/doc.stable-3-8/weka/attributeSelection/InfoGainAttributeEval.html

您还可以看到离散化方法的此链接:

http://weka.sourceforge.net/doc.stable-3-8/weka/filters/supervised/attribute/Discretize.html

最新更新