数据挖掘中信息增益所隐含的实际含义是什么?


Information Gain= (Information before split)-(Information after split)

信息增益可以通过上式找到。但我不明白的是,这种信息增益究竟是什么意思?这是否意味着通过根据给定属性或类似的东西进行拆分来获得或减少多少信息???

链接到答案:https://stackoverflow.com/a/1859910/740601

信息增益是根据属性拆分数据后实现的熵减少。IG = 熵(分裂前( - 熵(分裂后(。见 http://en.wikipedia.org/wiki/Information_gain_in_decision_trees

熵是存在的不确定性的量度。通过拆分数据,我们试图减少其中的熵并获得有关它的信息。

我们希望通过选择最能减少熵的属性和分割点来最大化信息增益。

如果熵 = 0,则无法从中获得进一步的信息。

正确

写成

信息增益 = 分裂前熵 - 分裂后平均熵

熵与信息的差异是符号。熵很高,如果你没有太多的数据信息。

直觉是统计信息理论的直觉。粗略的想法是:每条记录需要多少位来编码类标签分配?如果只剩下一个类,则每条记录需要 0 位。如果你有一个混沌的数据集,你将需要 1 位的每条记录。如果类不平衡,你可以使用(理论上的!(最佳压缩方案来摆脱小于这个数字;例如,仅通过对异常进行编码。当然,为了匹配这种直觉,您应该使用以 2 为底的对数。

如果分支之后的平均熵较低,则拆分被认为是好的。然后,通过拆分数据集,您获得了有关类标签的信息。IG 值是您在预测类标签时获得的平均信息位数。

相关内容

最新更新