h2o 数据帧枚举类型的内部字符串到整数映射是否始终相同？

查看h2o categorical_encodingenum类型的文档，它说

枚举

或枚举：保持数据集不变，在内部将字符串映射到整数，并使用这些整数进行拆分 - 通过序数当nbins_cats太小而无法解决所有级别或通过时的自然执行完美组拆分的位集。每个类别都是一个单独的类别类别;它的名称(或编号)无关紧要。例如，在字符串映射到 Num 的整数，您可以拆分 {0， 1， 2， 3， 4， 5} 作为 {0， 4， 5} 和 {1， 2， 3}。

这是否意味着每当我将相同的(在本例中)pandas 数据帧转换为 h2o 数据帧时，任何分类enum类型列值的每个内部表示将始终相同(或者每次都以某种方式随机)？(我认为它必须是为了在数据帧上训练的模型上运行任何实际预测，但想确保我的理解是正确的)。

作为旁注，文档的描述"进行拆分"是什么意思？

只要分类级别相同，顺序就会相同，索引将以相同的方式分配。

拆分是指基于树的模型。

相关内容

最新更新

热门标签：