我正在尝试与Amazon SageMaker Studio实现ML模型,问题是我想实现的模型来自拥抱脸,它使用来自CONLL语料库的数据集。
按照"拥抱脸"文档的说明,我必须阅读train = pd.read_csv. 但是数据集文件扩展名有问题,因为它是一个。train和。test扩展名。我得到的错误是:"ParserError:标记数据错误。C错误:预期第13行有1个字段,看到3">
是否有办法将。test文件转换为csv文件?或者我应该如何读取这些文件扩展名?
与
数据集:https://www.kaggle.com/nltkdata/conll-corpora
模型:https://huggingface.co/mrm8488/bert-spanish-cased-finetuned-ner
链接中的数据集似乎是制表符分隔,而不是逗号分隔。
您可以使用右分隔符来读取它,如df = pd.read_csv("<filename>", sep="t")