在 TPU 上运行具有不同序列长度的 HuggingFace 变压器是否每次都会导致 XLA 重新编译?



在TPU上运行具有不同序列长度的HuggingFace变压器会导致每次都制作新的计算图吗?从而每次都导致XLA重新编译?

此外,在训练时,这是否意味着所有批次都应填充到整个数据集中的总体最大长度?如果我使用训练器,它会自动为我做吗?

还是 PyTorch/XLA 的 ParallelLoader 做到了?

分词器应该已经填充到固定的最大长度,因此已经处理填充到固定长度。但是,是的,它应该已经为您处理了。但是,如果您确实具有不同的长度和形状,则确实会导致连续编译,因此训练性能将非常糟糕。

最新更新