对于研究论文,我将使用套索模型执行分类和特征选择。我准备使用一热编码来处理我的分类数据,并需要找出哪些特征映射到原始的分类值,以确定最终为最终模型选择了哪些功能。我已经谷歌搜索了这个问题已有一段时间了,但没有找到答案。
Scikit的一式式编码分配值如何?单速编码是否按时间顺序将它们整理成假人(即掉落1,使第一个假人成为价值2,第二个假人的值3和第三个假人的值4?或者是根据它找到的顺序分配的。当它扫描行时,不同的分类值(例如,第一个观察值有一个值3,第二个观察值的值为2,因此3被删除,第一个假人变为值2)?
)?谢谢!
从我看来它们确实按整数值结束的来源来看。但是,由于没有记录在记录的情况下,您不能指望这一点:这不是合同的一部分。如果您需要知道哪个值结束,我建议写自己的OneHot
实现。不应该太难了,然后当您升级到新版本等时,您可以指望它。