h2o 数据帧枚举类型的内部字符串到整数映射是否始终相同?



查看h2o categorical_encodingenum类型的文档,它说

枚举

或枚举:保持数据集不变,在内部将字符串映射到 整数,并使用这些整数进行拆分 - 通过序数 当nbins_cats太小而无法解决所有级别或通过时的自然 执行完美组拆分的位集。每个类别都是一个单独的类别 类别;它的名称(或编号)无关紧要。例如,在 字符串映射到 Num 的整数,您可以拆分 {0, 1, 2, 3, 4, 5} 作为 {0, 4, 5} 和 {1, 2, 3}。

这是否意味着每当我将相同的(在本例中)pandas 数据帧转换为 h2o 数据帧时,任何分类enum类型列值的每个内部表示将始终相同(或者每次都以某种方式随机)?(我认为它必须是为了在数据帧上训练的模型上运行任何实际预测,但想确保我的理解是正确的)。

  • 作为旁注,文档的描述"进行拆分"是什么意思?

只要分类级别相同,顺序就会相同,索引将以相同的方式分配。

拆分是指基于树的模型。

最新更新