小贝子编程

在 TPU 上运行具有不同序列长度的 HuggingFace 变压器是否每次都会导致 XLA 重新编译?

本文关键字：XLA 编译新编译是否变压器运行 TPU HuggingFace pytorch huggingface-transformers tpu
更新时间 : 2023-09-16
英文 : Does running HuggingFace Transformers with different sequence length on TPU causes XLA re-compilation every time?

在TPU上运行具有不同序列长度的HuggingFace变压器会导致每次都制作新的计算图吗？从而每次都导致XLA重新编译？

此外，在训练时，这是否意味着所有批次都应填充到整个数据集中的总体最大长度？如果我使用训练器，它会自动为我做吗？

还是 PyTorch/XLA 的 ParallelLoader 做到了？

分词器应该已经填充到固定的最大长度，因此已经处理填充到固定长度。但是，是的，它应该已经为您处理了。但是，如果您确实具有不同的长度和形状，则确实会导致连续编译，因此训练性能将非常糟糕。

相关内容