r语言 - 某些水平的分类变量不显著 - r - certain levels of categorical variables insignificant 小贝子编程网

我正在研究一个多元回归模型，该模型根据某些因素预测保险索赔金额。其中一个（分类）因素是该人作为保险套餐的一部分可以使用的房间类型（例如。贵宾室）。问题在于，少数房间类型在声明中具有很高的可变性，这导致它们是不显著的预测因子（这些水平的p值高达0.6）。我的建议是创建两个单独的模型，一个以房间类型作为预测因子，另一个没有。如果一个人是具有高变异性的房间之一的一部分，则应使用没有房间类型作为预测因子的模型，否则可以使用更好的拟合模型（具有更高的调整 R^2）。

我的问题是，这个过程有什么不正确的地方吗？

谢谢。

我不知道你那里有多少种可能的房间类型，但可能是某些类别与其他类别相比数量非常少。如果是这样的话，我宁愿尝试将具有相似特征的类型组合为新类别。这可能会增加数量并使它们变得重要。

如果不看到数据，就很难提出建议。

r语言 - 某些水平的分类变量不显著

相关内容

最新更新

热门标签：