编码或映射



我对如何处理机器学习算法的分类数据有点困惑。我在互联网上找到了一些方法,它们是:只编码,编码后是OneHotEncoding,以及用数字1、2、3映射等等。有人能帮我理解什么时候该使用这些方法吗?

根据数据的性质,有多种方法可以对类别进行编码。这也取决于你将要使用的算法,因为你不能对每个模型使用相同的编码方法。根据您的编码方法,您甚至可能需要更改模型交叉验证策略以避免泄漏。

看看这个-https://towardsdatascience.com/all-about-categorical-variable-encoding-305f3361fd02

相关内容

最新更新