我寻找关于使用神经网络编码高基数或稀疏数据集的示例,但我找不到它。我也搜索关于嵌入数值变量(不是分类),但我找不到任何例子。如果你有这些问题,你能给我发一个GitHub链接等吗?
使用神经网络,我假设tensorflow与Keras后端正在被使用?
如果是,这里是一个参考片段,主库使用tf.feature_column
import tensorflow as tf
from tensorflow.keras import layers
feature_columns=[]
for col in list(df_train_numerical.columns):
col = tf.feature_column.numeric_column(col)
feature_columns.append(col)
for col in list(df_train_categorical.columns):
col = tf.feature_column.embedding_column(tf.feature_column.categorical_column_with_hash_bucket(col, hash_bucket_size=8000), dimension=8)
#above hash bucket size is specified (cardinality) with dimension
feature_columns.append(col)
feature_layer = layers.DenseFeatures(feature_columns)
feature_layer基本上是神经网络的第一层-
model = tf.keras.models.Sequential()
model.add(feature_layer)
参考git代码