如何在SageMaker Studio中使用.train和.test扩展数据集文件训练模型?



我正在尝试与Amazon SageMaker Studio实现ML模型,问题是我想实现的模型来自拥抱脸,它使用来自CONLL语料库的数据集。

按照"拥抱脸"文档的说明,我必须阅读train = pd.read_csv. 但是数据集文件扩展名有问题,因为它是一个。train和。test扩展名。我得到的错误是:"ParserError:标记数据错误。C错误:预期第13行有1个字段,看到3">

是否有办法将。test文件转换为csv文件?或者我应该如何读取这些文件扩展名?

数据集:https://www.kaggle.com/nltkdata/conll-corpora

模型:https://huggingface.co/mrm8488/bert-spanish-cased-finetuned-ner

链接中的数据集似乎是制表符分隔,而不是逗号分隔。

您可以使用右分隔符来读取它,如df = pd.read_csv("<filename>", sep="t")

最新更新