建议使用注释工具创建命名实体识别数据集



我是NLP的新手。我正在寻找注释工具的建议,以从原始文本创建标记的NER数据集。

详细信息:

我正试图为特定类型的实体创建一个标记的数据集,以便开发我自己的NER项目(最初是基于规则的(。我认为会有一些友好的框架,允许创建标记项目、标记文本数据、创建标记数据集,甚至共享项目,这样几个人就可以在同一个项目上工作,但我很难找到一个(我承认"友好"或"直观"是主观的,但这是我的经验(。

到目前为止,我已经尝试了几种框架:

  • 我试过LightTag。它使标记本身快速而简单(即标记单词并给它们贴标签(,但创建有用数据集的整个过程并不像我预期的那样直观(即上传文本文件、拆分到不同的标记对象、保存标签等(
  • 我安装并尝试过LabelStudio,发现它不如LightTag成熟(不要在这里判断:(
  • 我还读过spaCy的Prodigy,它提供了一个付费的注释工具。我会考虑购买它,但他们的网站只提供标记阶段的实时演示,若他们的产品比上面的其他两种产品更好,我就无法访问

即使在StackOverflow中,我发现的关于这件事的最新问题也是5年前的事了。

你有没有建议使用一种工具从原始文本创建一个标记的NER数据集?


⚠️免责声明

我是《阿查里亚》的作者。我只回答问题中提出的几点。


根据您的问题,Acharya将帮助您创建项目,上传原始文本数据并对其进行注释,以创建标记的数据集。

它将允许您在数据集中单独标记训练或测试记录,并提供以数据为中心的报告,以识别和修复注释/标签错误。

它允许您在项目中添加不同的算法(自带算法(,并定期训练模型。经过训练后,它可以在未标记的数据上给出训练模型的注释建议,以加快标记过程。

如果您想在不同的设置中进行训练,它允许您以多种支持的格式导出标记的数据集。

目前,它不支持项目共享。

Acharya社区版是alpha版本。github页面(https://github.com/astutic/Acharya)网站(https://acharya.astutic.com/)

Doccano是另一个可以查看的开源注释工具https://github.com/doccano/doccano

我已经使用了两个DOCCANO(https://github.com/doccano/doccano)和BRAT(https://brat.nlplab.org/)。

发现后者非常好,它支持更多的功能。两者均可免费使用。

您可以尝试最近开发的用于spaCy NER的自动文本注释工具,该工具可在https://termitexpert.in/annotation_spacy_ner。如果提供实体及其相应项,此工具可以将原始数据转换为注释数据。注释数据将采用json格式,支持spaCy版本2,用于开发自定义命名实体识别(NER(模型。

例如,如果您有实体FRUIT,其对应的项目是(苹果、芒果、香蕉(。然后,此工具会自动从文本中查找每个项目,并将其注释为FRUIT。您还可以添加其他实体及其相应的项目。

注意:Abobe方法适用于spaCy v2。对于使用spaCy v3.0,您可能需要将json数据转换为DocBin格式并用于培训,请参阅文档。

最新更新