GPT-2:如何加快/优化令牌文本生成



我正在尝试使用GPT-2 simple生成一个20标记的文本。我花了大约15秒的时间来造句。AI地牢大约需要4秒才能生成相同大小的句子。

有没有一种方法可以加快/优化GPT-2文本生成?

我认为他们的结果更快,因为他们的程序优化得更好,计算能力更强。他们花了很多钱买服务器。同样,艾地下城使用的GPT-3可能会更快。我也在为GPT-2的速度而挣扎。如果你有什么想法,请告诉我。干杯

像GPT-2这样的文本生成模型很慢,当然,像GPT-J和GPT-NeoX这样的更大模型会更糟。

如果你想加快你的文本生成速度,你有几个选择:

  • 使用GPU。GPT-2不需要太多的VRAM,所以入门级GPU就可以了。在GPU上,用GPT-2生成20个令牌不应该超过1秒
  • 量化您的模型并将其转换为TensorRT。请参阅本教程:https://github.com/NVIDIA/TensorRT/tree/main/demo/HuggingFace/GPT2
  • 通过专用的推理服务器(如TorchServe或Triton推理服务器(为其提供服务

我实际上写了一篇关于如何加快基于转换器的模型的推理的文章。你可能会发现它很有帮助:如何加快深度学习推理

您可以使用GPT-2模型的OpenVINO优化版本。演示可以在这里找到。它应该更快,因为它经过了大量优化。

最新更新