我正在尝试构建一个keras模型,为45个不同的类对文本进行分类。对于按照谷歌的BERT模型的要求为输入准备数据,我有点困惑。
一些博客文章将数据插入到具有input_ids、segment id和mask id的tf数据集中,如本指南所示,但有些博客文章仅使用input_ids和mask,如本手册所示。
同样在第二个指南中,它注意到片段掩码和注意力掩码输入是可选的。
有人能解释一下多类分类任务是否需要这两个吗?
如果有帮助的话,我的每一行数据都可以由一个合理大小的段落中的任意数量的句子组成。我希望能够将每个段落/输入分类到一个标签中。
我似乎找不到很多关于将BERT与Keras(Tensorflow 2(一起用于多类问题的指南/博客,事实上,其中许多都是用于多标签问题的。
我想现在回答已经太晚了,但我也有同样的问题。我浏览了huggingface代码,发现如果attention\umask和segment_type id为None,那么默认情况下,它会关注所有令牌,并且所有分段的id都为0。
如果你想查看它,你可以在这里找到代码
如果这澄清了它,或者你不这么认为,请告诉我。