小贝子编程

Tensorflow Serving with XLA

本文关键字：XLA with Serving Tensorflow tensorflow-serving tensorflow-xla
更新时间 : 2023-09-09
英文 : Tensorflow Serving with XLA

在使用Tensorflow Serving进行推理时是否可以启用XLA编译？

(我希望这只是一个未记录的配置问题，并且我可以避免实现自定义可服务(。

@njs，

实际上不建议在推理过程中进行编译。推理时的编译将导致 HBM 内存不足，导致芯片无法处理请求。

建议的解决方案是：

使用具有允许的批大小的批处理函数来限制运行时的编译数。
模型加载时而不是推理时对这些允许的批大小进行所有编译。这样，您的模型就可以在加载后立即进行推理，而不是在推理时进行高延迟编译。

相关内容

最新更新