如何在数据块上使用拥抱面变压器和spark nlp微调NER模型



我需要训练(微调)NER标记分类器来识别我们的自定义标记。我发现最简单的方法是:基于W-NUT新兴实体的令牌分类

但现在我遇到了一个问题-计划如下:HuggingFace在Spark NLP - BERT句子。ipynb,但当我尝试:

model.save_pretrained(<path on DBFS>)

我得到文件写入错误。据我所知,这是因为transformers/keras不能在分布式文件系统上工作,比如DBFS

这有什么解决办法吗?

我不能将训练从databricks中移开,因为我正在使用数据库中的数据(实体)来创建训练文件

p。也许我可以只使用spark nlp做同样的事情?如何-最好只使用相同的"标签格式吗?

您应该首先将模型保存到本地文件系统,然后将其复制到DBFS:

from distutils.dir_util import copy_tree
local_path = "./tmp/model"
dbfs_path = "/dbfs/tmp/model"
model.save_pretrained(local_path)
copy_tree(local_path, dbfs_path)

相关内容

  • 没有找到相关文章

最新更新