如何防止AmazonSageMaker将我的.txt文件拆分成行



我想为工人创建一个标签作业来标记我的文本数据。每个文本文件都应标记为一个实体。SageMaker似乎把我的文本分成了几行,所以每一行都可以标记,这对我的项目没有任何意义。我使用了GroundTruth选项"创建标签作业",但找不到任何配置选项来防止拆分。

首先替换文本中的所有换行符,即"n〃;具有CCD_ 1标签。然后,您需要创建一个自定义标签作业,也可以从预定义的模板中为初始代码进行选择。标签内只包含";skip_ autoescape";它将有助于将<br/>视为换行符,并且您可以将所需的输出视为单个实体。

请参阅以下文档以获取更多参考:

https://docs.aws.amazon.com/sagemaker/latest/dg/sms-custom-templates-step2.html

最新更新