scikit的独热编码如何分配假人？

对于研究论文，我将使用套索模型执行分类和特征选择。我准备使用一热编码来处理我的分类数据，并需要找出哪些特征映射到原始的分类值，以确定最终为最终模型选择了哪些功能。我已经谷歌搜索了这个问题已有一段时间了，但没有找到答案。

Scikit的一式式编码分配值如何？单速编码是否按时间顺序将它们整理成假人（即掉落1，使第一个假人成为价值2，第二个假人的值3和第三个假人的值4？或者是根据它找到的顺序分配的。当它扫描行时，不同的分类值（例如，第一个观察值有一个值3，第二个观察值的值为2，因此3被删除，第一个假人变为值2）？

）？

谢谢！

从我看来它们确实按整数值结束的来源来看。但是，由于没有记录在记录的情况下，您不能指望这一点：这不是合同的一部分。如果您需要知道哪个值结束，我建议写自己的OneHot实现。不应该太难了，然后当您升级到新版本等时，您可以指望它。

相关内容