keras.preprrocessing.text.tensorflow.data.TextLineDataset的标记



我有一个很大的文本语料库,我正在加载它:

text_ds = tf.data.TextLineDataset(list_files)

并且不能再使用方法CCD_ 1或CCD_。在测试我的代码时,我曾经用转换text_ds

input_data = list(map(tf.compat.as_str_any, list(text_ds.as_numpy_iterator())))#convert text_ds to a numpy list in binary format, and then convert elements of this list to python strings 
tokenizer_inputs = Tokenizer(num_words=MAX_VOCAB_SIZE, filters='')
tokenizer_inputs.fit_on_texts(input_data)#input_data is here a list of python strings 
input_sequences = tokenizer_inputs.texts_to_sequences(input_data)

但是这个过程现在花费了太多时间。如何以一种节省时间的方式调整我的text_ds变量,使其可以用于keras.preprocessing.text.Tokenizer.fit_on_textskeras.preprocessing.text.Tokenizer.fit_on_texts.texts_to_sequences

我仔细看过文件,但没有找到任何答案。

是否对text_ds((应用了Map((方法。

像这样-

def tokenrizer(data):
tokenizer.fit_on_texts(data)
sequence = tokenizer.texts_to_sequences(data)
return sequence

然后应用

text_ds.map(tokenizer)

相关内容

  • 没有找到相关文章

最新更新