我有一个很大的文本语料库,我正在加载它:
text_ds = tf.data.TextLineDataset(list_files)
并且不能再使用方法CCD_ 1或CCD_。在测试我的代码时,我曾经用转换text_ds
input_data = list(map(tf.compat.as_str_any, list(text_ds.as_numpy_iterator())))#convert text_ds to a numpy list in binary format, and then convert elements of this list to python strings
tokenizer_inputs = Tokenizer(num_words=MAX_VOCAB_SIZE, filters='')
tokenizer_inputs.fit_on_texts(input_data)#input_data is here a list of python strings
input_sequences = tokenizer_inputs.texts_to_sequences(input_data)
但是这个过程现在花费了太多时间。如何以一种节省时间的方式调整我的text_ds
变量,使其可以用于keras.preprocessing.text.Tokenizer.fit_on_texts
和keras.preprocessing.text.Tokenizer.fit_on_texts.texts_to_sequences
?
我仔细看过文件,但没有找到任何答案。
是否对text_ds((应用了Map((方法。
像这样-
def tokenrizer(data):
tokenizer.fit_on_texts(data)
sequence = tokenizer.texts_to_sequences(data)
return sequence
然后应用
text_ds.map(tokenizer)