小贝子编程

注意类型 'block_sparse' 是不可能的，如果sequence_length：458 <= num 全局令牌：

本文关键字：令牌 num length 全局如果 sparse block 类型不可能 sequence machine-learning pytorch huggingface-transformers
更新时间 : 2023-09-22
英文 : Attention type 'block_sparse' is not possible if sequence_length: 458 <= num global tokens:

我使用预训练的google/bigbird-pegasus-large-arxiv模型。

但是我在转发过程中收到了以下更新。

Attention type 'block_sparse' is not possible if sequence_length: 458 <= num global tokens: 2 * config.block_size + min. num sliding tokens: 3 * config.block_size + config.num_random_blocks * config.block_size + additional buffer: config.num_random_blocks * config.block_size = 704 with config.block_size = 64, config.num_random_blocks = 3.Changing attention type to 'original_full'...

我理解更新，我意识到使用block_sparse比使用original_full节省时间和内存的好处。

那么，当我知道输入的序列长度有很多变化时，我该如何选择合适的block_size和num_random_blocks呢?

我最终在tokenizer.encode()中设置了padding='max_length'。它将保证模型将始终使用"block_sparse"注意类型。

注意类型 'block_sparse' 是不可能的，如果sequence_length：458 <= num 全局令牌：

相关内容

最新更新

热门标签：