Tensorflow从一个大型数据集创建tf.ragged.constant

拥有50000个用户的DF，每个用户都有不同的行数：

id            feature_1  ...           feature10  feature11
0  1587712104294-4384584            -0.661835  ...           -1.768028   -0.38924
1  1587712104294-4384584            -0.661835  ...           -1.709090   -0.38924
---- User 2 starts here ----
2  1587712104294-1234584            -0.661835  ...           -1.708693   -0.38924
3  1587712104294-1234584            -0.661835  ...           -1.627594   -0.38924
4  1587712104294-1234584            -0.653476  ...           -1.329767   -0.38924

我正在使用以下代码创建tf.ragged.constant:

x_np_values = data.values
# take all columns beside the id column and use the id to group arrays 
X = np.split(x_np_values[:,1:], np.unique(x_np_values[:, 0], return_index=True)[1][1:])
X = tf.ragged.constant(X)

该代码删除id列并创建用户行的不规则常量。然而，这只适用于数据的一小部分。对于整个数据集来说，它需要很长时间，有时还会使我的机器崩溃。

按id分组并从其余列中创建一个不规则常量的正确方法是什么？

我发现这种方法在创建一个不规则常数时要快得多：

def get_ragged_constants(data):
return tf.RaggedTensor.from_row_lengths(
values=data.values,
row_lengths=data.groupby('GROUP_ID').size())

相关内容

最新更新

热门标签：