r语言 - 某些水平的分类变量不显著



我正在研究一个多元回归模型,该模型根据某些因素预测保险索赔金额。其中一个(分类)因素是该人作为保险套餐的一部分可以使用的房间类型(例如。贵宾室)。问题在于,少数房间类型在声明中具有很高的可变性,这导致它们是不显著的预测因子(这些水平的p值高达0.6)。我的建议是创建两个单独的模型,一个以房间类型作为预测因子,另一个没有。如果一个人是具有高变异性的房间之一的一部分,则应使用没有房间类型作为预测因子的模型,否则可以使用更好的拟合模型(具有更高的调整 R^2)。

我的问题是,这个过程有什么不正确的地方吗?

谢谢。

我不知道你那里有多少种可能的房间类型,但可能是某些类别与其他类别相比数量非常少。如果是这样的话,我宁愿尝试将具有相似特征的类型组合为新类别。这可能会增加数量并使它们变得重要。

如果不看到数据,就很难提出建议。

最新更新