假设我们有与我们试图预测的目标数字相关的几个特征的记录。所有记录都遵循相同的基本模式,并且RandomForestRegressor
可以很好地学习。现在我们假设所有记录都添加了一个分类特征,可以将其编码为附加信息,以提高模型的预测能力。到目前为止,一切顺利。
但是现在假设我们想使用在包含分类特征的数据上进行训练的回归器来预测未在训练数据中表示的新类别的记录。在这种情况下,分类信息是否变得无用(或更糟?)是否应该在没有可用分类信息的情况下重新训练模型,以获得最佳的泛化性能(因为它以前适合于不在此数据集中的类别)?或者,是否存在某种可能的方法,知道训练数据中的类别隶属度可以提高对样本外类别的预测能力?
如果这些集合没有交集,那么就不应该包含该变量。如果您希望在测试数据中看到一些原始值,那么您应该使用它。