注意类型 'block_sparse' 是不可能的,如果sequence_length:458 <= num 全局令牌:



我使用预训练的google/bigbird-pegasus-large-arxiv模型。

但是我在转发过程中收到了以下更新。

Attention type 'block_sparse' is not possible if sequence_length: 458 <= num global tokens: 2 * config.block_size + min. num sliding tokens: 3 * config.block_size + config.num_random_blocks * config.block_size + additional buffer: config.num_random_blocks * config.block_size = 704 with config.block_size = 64, config.num_random_blocks = 3.Changing attention type to 'original_full'...

我理解更新,我意识到使用block_sparse比使用original_full节省时间和内存的好处。

那么,当我知道输入的序列长度有很多变化时,我该如何选择合适的block_sizenum_random_blocks呢?

我最终在tokenizer.encode()中设置了padding='max_length'。它将保证模型将始终使用"block_sparse"注意类型。

相关内容

最新更新