我正在使用Weka的属性选择函数进行信息增益,我试图弄清楚Weka在处理连续数据时使用的具体公式是什么。
我知道熵的常用公式是当数据中的值是离散的时。我知道在处理连续数据时,可以使用微分熵或离散化值。我试过查看Weka对InfoGainAttributeEval的解释,并查看了许多其他参考资料,但找不到任何东西。
也许只有我,但有谁知道 Weka 是如何实施这个案子的?
谢谢!
我问作者马克·霍尔,他说:
它使用基于监督MDL的Fayad离散化方法和 伊朗人。请参阅javadocs:
http://weka.sourceforge.net/doc.stable-3-8/weka/attributeSelection/InfoGainAttributeEval.html
您还可以看到离散化方法的此链接:
http://weka.sourceforge.net/doc.stable-3-8/weka/filters/supervised/attribute/Discretize.html