如何在tensorflow、pytorch或keras中从预先定义的vocb进行标记化



我有一个预定义的vocab,它是根据常用的3500个汉字构建的。现在,我想用这个vocab标记数据集,以修复每个字符。我可以继承任何成熟的classfunction来构建数据读取管道吗?

与其在这里详细介绍,我建议你去YouTube上的教程。。作者演示了如何使用标记器将文本字符编码为序列,然后将其用作嵌入层的输入。您感兴趣的部分将在视频的时间23:30开始

相关内容

  • 没有找到相关文章

最新更新