我有一个带有邮政编码列的数据集。它们在输出中具有一定的意义,我想将其用作功能。我正在使用随机森林模型。
我需要有关使用邮政编码列作为功能的最佳方法的建议。(例如,我应该获取该邮政编码的纬度/经度,而不是直接输入邮政编码等(
提前感谢!!
处理邮政编码或任何高基数分类列的常用方法称为"目标编码"或"影响编码"。在 H2O 中,您可以将目标编码应用于任何分类列。 从 H2O 3.20 开始,这仅在 R 中可用,但在下一个稳定版本 3.22 中,它将在所有客户端中可用(JIRA 票证在这里(。
如果您使用的是R,我的建议是尝试目标编码和Lauren提到的GLRM方法并比较结果。 如果您使用的是 Python 或其他语言,请立即尝试 GLRM,并在 H2O 3.22 发布时尝试目标编码。
我会第二点艾琳·勒戴尔(Erin LeDell(所说的目标编码。
以下是一些其他选项,并非所有选项都适用:
- 将邮政编码的粒度减少到前 1、2、3 或 4 位数字。所以 邮政编码90210变为902(902XX(,代表洛杉矶 县。902 邮政编码
- 您可以按 MSA 或 CBSA 对邮政编码进行分组吗?
- 是否有可以附加的邮政编码功能,即城市/城市/农村等。
- 你能拉出一些邮政编码的人口统计数据,人口规模或收入吗
- 往返关键位置(机场、市中心等(的距离
- 目标编码,然后分组为非常高、高、中和低(或任何有意义的(示例,这将有助于防止过度训练模型。