t = 'comcom.android.systemuicom.android.systemuicom.android.systemui'
def pad_trunc_shingle(t):
shingle_max = 300
actual_len = tf.strings.length(t).numpy()
if actual_len > shingle_max:
return tf.strings.substr(t, 0, shingle_max)
else:
return tf.strings.join(('#' * (shingle_max- actual_len) ,t))
此功能可以工作:
<tf.Tensor: shape=(), dtype=string, numpy=b'#############################################################################################################################################################################################################################################comcom.android.systemuicom.android.systemuicom.android.systemui'>
然而,当我使用这个函数时,它是数据集映射函数。它引发错误:
属性错误:"Tensor"对象没有属性"numpy"在处理数据集映射函数时,如何获取actual_len
?
tf版本:2.3.1
您可以使用tf.cond
和tf.py_function
。这是有效的,但肯定有比我做的更简单的方法。
import tensorflow as tf
def joining(word, shin_max, act_len):
return tf.strings.join([*tf.repeat('#', shin_max - act_len), word])
def substr(word, shin_max):
return tf.strings.substr(word, 0, shin_max)
t = 'comcom.android.systemuicom.android.systemuicom.android.systemui'
def pad_trunc_shingle(t):
shingle_max = 100
actual_len = tf.strings.length(t)
if_actual_longer = lambda: tf.py_function(joining, inp=[t, shingle_max, actual_len], Tout=[tf.string])
if_word_longer = lambda: tf.py_function(substr, inp=[t, shingle_max], Tout=[tf.string])
return tf.cond(actual_len < shingle_max, if_actual_longer, if_word_longer)
words = [t for i in range(10)]
ds = tf.data.Dataset.from_tensor_slices(words).map(pad_trunc_shingle)
next(iter(ds))
(<tf.Tensor: shape=(), dtype=string, numpy=b'#####################################comcom.android.systemuicom.android.systemuicom.android.systemui'>,)