我有一个预定义的vocab,它是根据常用的3500个汉字构建的。现在,我想用这个vocab标记数据集,以修复每个字符。我可以继承任何成熟的class
或function
来构建数据读取管道吗?
与其在这里详细介绍,我建议你去YouTube上的教程。。作者演示了如何使用标记器将文本字符编码为序列,然后将其用作嵌入层的输入。您感兴趣的部分将在视频的时间23:30开始