我们是否始终需要删除一列单热编码以防止多重共线性?在这里的解决方案(https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic/comments#138896)
@kevin chang,您需要将虚拟变量的一列删除到 避免多重共线性的状态。这是一个很高的状态 列之间的相关性(自变量);意思是 一个可以从其他人那里预测。因此,这是一种 数据中的干扰,如果存在数据,则统计 关于数据的结论可能并不可靠。
在这里的解决方案中,没有迎合多重共线性的餐饮https://www.kaggle.com/sharmasanthosh/allstate-clairs-severity/exploratory-study-on-ml-algorithms
我可以知道这是必须的,还是在什么情况下我们要满足?
如果我必须回答您的问题"Do we always need to remove a column for one-hot encoding to prevent multicollinearity?"
,答案是肯定的。
预防多重共线性的常见方法是从模型中删除高度相关的预测指标。如果您有两个或多个具有高VIF的因素,请从模型中删除一个因素。因为他们提供冗余信息,因此消除相关因素之一通常不会减少R平方。
或者您可以使用部分最小二乘回归(PLS)或主组件分析,回归方法将预测因子数量减少到较小的不相关组件。