通过改变 UV 坐标对金属造成意外性能的影响

下面是一个简单的顶点和片段着色器组合，metal渲染了 64 个相同的 2D 四边形。

vertex VertexOut vertexMain(uint k [[ vertex_id ]],
uint ii [[instance_id]],
device float2* tex [[buffer(2)]],
device float2* position [[buffer(1)]],
device float* state [[buffer(0)]]){
VertexOut output;
int i = 4*ii+1;
float2 pos = position[k];
pos *= float2(state[i+2],state[i+3]);
pos += float2(state[i],state[i+1]);
pos.x *= state[0];
output.position = float4(pos,0,1);
output.tex = tex[k]*float2(du,dv);
return output;
};
fragment float4 fragmentMain(VertexOut input [[stage_in]],
texture2d<float> texture [[texture(0)]],
sampler sam [[sampler(0)]] ){
return texture.sample(sam, input.tex);
};

采样器使用归一化坐标，因此du和dv的范围可以从 0 到 1，并控制从左下角开始采样纹理剪辑的大小。

看来我对金属采样的工作原理有误解。我希望无论du和dv持有什么值，计算成本都会保持不变。但是，当我将du和dv增加到 1 时，帧速率会下降。我没有使用任何 mipmap，也没有更改屏幕上栅格化的四边形的大小。线性滤波的影响更大，但最近的滤波也会发生。在我看来，由于绘制到屏幕上的像素数相同，因此GPU上的负载不应取决于du和dv。我错过了什么？

编辑：这是我的采样器和颜色附件：

let samplerDescriptor = MTLSamplerDescriptor()
samplerDescriptor.normalizedCoordinates = true
samplerDescriptor.minFilter = .linear
samplerDescriptor.magFilter = .linear
let sampler = device.makeSamplerState(descriptor: samplerDescriptor)
let attachment = pipelineStateDescriptor.colorAttachments[0]
attachment?.isBlendingEnabled = true
attachment?.sourceRGBBlendFactor = .one
attachment?.destinationRGBBlendFactor = .oneMinusSourceAlpha

随着du的增加和dv，您的四边形显示更多的纹理。GPU 往往具有用于纹理数据的小型缓存，随着您显示更多纹理，您将丢弃并重新填充更多缓存。

破坏纹理缓存将使用更多的内存带宽，这是一个相当有限的资源，通常纹理内存带宽不是瓶颈，但由于您的片段着色器除了纹理获取之外几乎什么都不做，因此成为瓶颈也就不足为奇了。因此，改变 UV 对性能有影响也就不足为奇了。

令人惊讶的是，在这些非常强大的设备上，帧速率降至 60 以下，而您所做的只是渲染 64 个四边形(尤其是 iPad Pro 是一款非常强大的设备)。也就是说，也许如果所有 64 个四边形都覆盖了大部分屏幕，帧率下降是可以理解的。

为了提高性能，您需要减少需要由 GPU 清理的纹理数据量。从 32 位纹理格式 (8888) 更改为 16 位 (565/4444) 或 4 位(PVRTC 压缩纹理)将产生很大的影响。

真正的重大胜利可能是启用mipmapping。假设du和dv的高值，您最终会最小化纹理，那么使用 mipmapping 将带来巨大的性能优势，并且作为额外的奖励，您的纹理看起来也会更好(它将修复混叠)。纹理内存增加 33% 的回报还不错。

相关内容

最新更新

热门标签：