建议使用注释工具创建命名实体识别数据集

我是NLP的新手。我正在寻找注释工具的建议，以从原始文本创建标记的NER数据集。

详细信息：

我正试图为特定类型的实体创建一个标记的数据集，以便开发我自己的NER项目(最初是基于规则的(。我认为会有一些友好的框架，允许创建标记项目、标记文本数据、创建标记数据集，甚至共享项目，这样几个人就可以在同一个项目上工作，但我很难找到一个(我承认"友好"或"直观"是主观的，但这是我的经验(。

到目前为止，我已经尝试了几种框架：

我试过LightTag。它使标记本身快速而简单(即标记单词并给它们贴标签(，但创建有用数据集的整个过程并不像我预期的那样直观(即上传文本文件、拆分到不同的标记对象、保存标签等(
我安装并尝试过LabelStudio，发现它不如LightTag成熟(不要在这里判断：(
我还读过spaCy的Prodigy，它提供了一个付费的注释工具。我会考虑购买它，但他们的网站只提供标记阶段的实时演示，若他们的产品比上面的其他两种产品更好，我就无法访问

即使在StackOverflow中，我发现的关于这件事的最新问题也是5年前的事了。

你有没有建议使用一种工具从原始文本创建一个标记的NER数据集？

⚠️免责声明

我是《阿查里亚》的作者。我只回答问题中提出的几点。

根据您的问题，Acharya将帮助您创建项目，上传原始文本数据并对其进行注释，以创建标记的数据集。

它将允许您在数据集中单独标记训练或测试记录，并提供以数据为中心的报告，以识别和修复注释/标签错误。

它允许您在项目中添加不同的算法(自带算法(，并定期训练模型。经过训练后，它可以在未标记的数据上给出训练模型的注释建议，以加快标记过程。

如果您想在不同的设置中进行训练，它允许您以多种支持的格式导出标记的数据集。

目前，它不支持项目共享。

Acharya社区版是alpha版本。github页面(https://github.com/astutic/Acharya)网站(https://acharya.astutic.com/)

Doccano是另一个可以查看的开源注释工具https://github.com/doccano/doccano

我已经使用了两个DOCCANO(https://github.com/doccano/doccano)和BRAT(https://brat.nlplab.org/)。

发现后者非常好，它支持更多的功能。两者均可免费使用。

您可以尝试最近开发的用于spaCy NER的自动文本注释工具，该工具可在https://termitexpert.in/annotation_spacy_ner。如果提供实体及其相应项，此工具可以将原始数据转换为注释数据。注释数据将采用json格式，支持spaCy版本2，用于开发自定义命名实体识别(NER(模型。

例如，如果您有实体FRUIT，其对应的项目是(苹果、芒果、香蕉(。然后，此工具会自动从文本中查找每个项目，并将其注释为FRUIT。您还可以添加其他实体及其相应的项目。

注意：Abobe方法适用于spaCy v2。对于使用spaCy v3.0，您可能需要将json数据转换为DocBin格式并用于培训，请参阅文档。

相关内容

最新更新

热门标签：