我发现,具有标签均值的训练集和测试集目标编码都应该基于训练集目标值进行,这样我们就不会将训练集信息泄露到测试集中。
我正在基于训练集标签均值对我的数据集进行目标编码,但由于数据集是时间序列,并且要编码的变量之一是"年",我的数据的最后两年进入测试集,但没有得到编码的值,导致NA。我们应该如何对训练集中不存在的测试集中的值进行编码。
好吧。在没有人回答这个问题之后,我解决了这个问题。我找到了解决办法。答案是,不可能对时间序列问题中的"年份"特征进行目标编码,因为年份是相同的,与"Mount"或"Week Number"特征相比,可能没有重复前几年的特征。因此,一个更好的方法是进行一次性热编码。我必须提到,这个问题只适用于日期特征被认为是分类属性的情况。