我使用预训练的google/bigbird-pegasus-large-arxiv
模型。
但是我在转发过程中收到了以下更新。
Attention type 'block_sparse' is not possible if sequence_length: 458 <= num global tokens: 2 * config.block_size + min. num sliding tokens: 3 * config.block_size + config.num_random_blocks * config.block_size + additional buffer: config.num_random_blocks * config.block_size = 704 with config.block_size = 64, config.num_random_blocks = 3.Changing attention type to 'original_full'...
我理解更新,我意识到使用block_sparse
比使用original_full
节省时间和内存的好处。
那么,当我知道输入的序列长度有很多变化时,我该如何选择合适的block_size
和num_random_blocks
呢?
我最终在tokenizer.encode()
中设置了padding='max_length'
。它将保证模型将始终使用"block_sparse"注意类型。