如何使用神经网络处理高基数/稀疏特征?



我寻找关于使用神经网络编码高基数或稀疏数据集的示例,但我找不到它。我也搜索关于嵌入数值变量(不是分类),但我找不到任何例子。如果你有这些问题,你能给我发一个GitHub链接等吗?

使用神经网络,我假设tensorflow与Keras后端正在被使用?

如果是,这里是一个参考片段,主库使用tf.feature_column

import tensorflow as tf
from tensorflow.keras import layers
feature_columns=[]
for col in list(df_train_numerical.columns):
col = tf.feature_column.numeric_column(col)
feature_columns.append(col)

for col in list(df_train_categorical.columns):
col = tf.feature_column.embedding_column(tf.feature_column.categorical_column_with_hash_bucket(col, hash_bucket_size=8000), dimension=8)
#above hash bucket size is specified (cardinality) with dimension
feature_columns.append(col)

feature_layer = layers.DenseFeatures(feature_columns)

feature_layer基本上是神经网络的第一层-

model = tf.keras.models.Sequential()
model.add(feature_layer)

参考git代码

最新更新