我有一个像下面这样的空格2格式的数据集注释
td = ["Where is Shaka Khan lived.I Live In London.", {"entities": [(9, 19, "FRIENDS"),(32, 37, "JILLA")]}]
我的数据集序列长度大于512,并试图迁移到拥抱脸,所以我想把文档分成句子,同时需要更新标签,也有任何工具可用,我的预期结果应该像下面
td = [["Where is Shaka Khan lived.", {"entities": [(9, 19, "FRIENDS")]}],["I Live In London.", {"entities": [(10, 16, "JILLA")]}],]
为什么要用空格呢?编写一个小解析器来拆分它,然后在已经拆分的句子上运行空格,它会给你想要的相同结果