如何处理包含一串 id 的对象类型数据,以便在我的模型中馈送?



我有一个数据集,其中用户唯一ID的数据类型是对象形式。我需要将其转换为 Int,以便将这些数据输入我的模型中。

这是我数据集的第一行。

event_id             event_time        user_ids       tag_from      tag_to
gse:161a4c6b24541287  2018-02-17 17:18:59   user_out_0  0

我正在尝试将我的"event_id"列转换为可用于 ml 模型的数据类型。这是 data.info(( 的输出

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1422907 entries, 0 to 1422906
Data columns (total 5 columns):
event_id      1422907 non-null object
event_time    1422907 non-null datetime64[ns]
user_ids      1422907 non-null object
tag_from      1422907 non-null uint8
tag_to        1422907 non-null uint8
dtypes: datetime64[ns](1), object(2), uint8(2)
memory usage: 35.3+ MB}

提前谢谢。

IIUC 您要标记对event_id列进行编码。您可以使用scikit-learn标签编码器或熊猫:

首先将event_id列转换为类型 category

 df["event_id"] = df["event_id"].astype('category')

然后使用

df["event_id"] = df["event_id"].cat.codes

另外,请考虑将该唯一 ID 提供给 ML 模型的合适程度。

最新更新