小贝子编程

如何将带注释的数据集分割成句子

本文关键字：数据集分割句子注释 dataset spacy
更新时间 : 2023-09-22
英文 : How split annotated dataset into sentence

我有一个像下面这样的空格2格式的数据集注释

td = ["Where is Shaka Khan lived.I Live In London.", {"entities": [(9, 19, "FRIENDS"),(32, 37, "JILLA")]}]

我的数据集序列长度大于512，并试图迁移到拥抱脸，所以我想把文档分成句子，同时需要更新标签，也有任何工具可用，我的预期结果应该像下面

td = [["Where is Shaka Khan lived.", {"entities": [(9, 19, "FRIENDS")]}],["I Live In London.", {"entities": [(10, 16, "JILLA")]}],]

为什么要用空格呢?编写一个小解析器来拆分它，然后在已经拆分的句子上运行空格，它会给你想要的相同结果

最新更新

如何使Qr码大小固定在ZPL无论内容?
为什么使用异步函数"getDownloadURL"来获取 Firebase Storage 中的文件网址
如何使用killtimer来完成Qtimer;
动态内联样式的值由sass变量
如何在matlab中找到一行等于矩阵中的向量?我特别想要有索引
使用命令行构建Xcode 14.3 Rosetta
类型"可分配给类型"T"的约束，但"T"可以使用约束"RGT"的不同子类型进行实例化
如何修改字符串值并将其转换为int, bool等?
TypeScript中的命令和响应泛型
Swift + Firestore:如何获取相关对象
创建shared_ptr类与私有析构函数?
按company_id筛选Laravel关系
Bash:向函数传递不同的参数列表
如何在文件系统Android 13上请求写入权限
按下ListView项目标题中的附件按钮
c -将结构体转换为uint8_t *或char *并通过字节流访问它是多么安全?
为什么从Oracle中的某个表读取比从同一数据库中的其他表读取慢
收到警告：名称"猜测"可以未定义
将每小时ERA5 netcdf文件合并为每日文件
打字脚本"TS2339：属性'X'在类型'Y'"错误中不存在，即使定义了类型
尝试添加背景音乐到web应用程序
构建错误.在scala框架中使用PlayScala
Ruby on Rails -从数组中获取前n个元素
没有更多的数据!现在，刮痧将会停止.不能使用twint获取更多tweets
为什么我不能在空对象上调用方法view()
Python类和协议的多重继承
正在写IIS重定向规则
.net5程序的w3wp进程的非托管内存泄漏，内存占用在哪里?
TypeError: _getfullpathname:路径应该是字符串、字节或os.PathLike，而不是list
如何在typescript中设置React Native中的全局变量?

如何将带注释的数据集分割成句子

相关内容

最新更新

热门标签：