GLSL 计算着色器仅部分写入 Vulkan 中的缓冲区

我创建了这个GLSL计算着色器，并使用"glslangValidator.exe"对其进行编译。但是，它只会更新"粒子[i]。速度"值，而不是任何其他值，这只在某些情况下发生。我已经检查了是否使用"RenderDoc"发送了正确的输入值。

缓冲区使用标志位

VK_BUFFER_USAGE_VERTEX_BUFFER_BIT |VK_BUFFER_USAGE_STORAGE_BUFFER_BIT |VK_BUFFER_USAGE_TRANSFER_DST_BIT

和属性标志位

VK_MEMORY_PROPERTY_HOST_VISIBLE_BIT |VK_MEMORY_PROPERTY_HOST_COHERENT_BIT

GLSL 着色器

#version 450
#extension GL_ARB_separate_shader_objects : enable
struct Particle
{
vec3 Position;
vec3 Velocity;
vec3 IPosition;
vec3 IVelocity;
float LifeTime;
float ILifetime;
};
layout(binding = 0) buffer Source
{
Particle Particles[ ];
};
layout(binding = 1) uniform UBO
{
mat4 model;
mat4 view;
mat4 proj;
float time;
};
vec3 Gravity = vec3(0.0f,-0.98f,0.0f);
float dampeningFactor = 0.5;
void main(){
uint i = gl_GlobalInvocationID.x;
if(Particles[i].LifeTime > 0.0f){
Particles[i].Velocity = Particles[i].Velocity + Gravity * dampeningFactor * time;
Particles[i].Position = Particles[i].Position + Particles[i].Velocity * time;
Particles[i].LifeTime = Particles[i].LifeTime - time;
}else{
Particles[i].Velocity = Particles[i].IVelocity;
Particles[i].Position = Particles[i].IPosition;
Particles[i].LifeTime = Particles[i].ILifetime;
}
}

描述符集布局绑定

VkDescriptorSetLayoutBinding descriptorSetLayoutBindings[2] = {
{ 0, VK_DESCRIPTOR_TYPE_STORAGE_BUFFER, 1, VK_SHADER_STAGE_COMPUTE_BIT, 0 },
{ 1, VK_DESCRIPTOR_TYPE_UNIFORM_BUFFER, 1, VK_SHADER_STAGE_COMPUTE_BIT, 0 }
};

命令调度

vkCmdDispatch(computeCommandBuffers, MAX_PARTICLES , 1, 1);

队列的提交

VkSubmitInfo cSubmitInfo = {};
cSubmitInfo.sType = VK_STRUCTURE_TYPE_SUBMIT_INFO;
cSubmitInfo.commandBufferCount = 1;
cSubmitInfo.pCommandBuffers = &computeCommandBuffers;
if (vkQueueSubmit(computeQueue.getQueue(), 1, &cSubmitInfo, computeFence) != VK_SUCCESS) {
throw std::runtime_error("failed to submit compute command buffer!");
}
vkWaitForFences(device.getDevice(), 1, &computeFence, VK_TRUE, UINT64_MAX);

更新： 13/05/2017 (更多信息已添加)

CPP 中的粒子结构定义

struct Particle {
glm::vec3 location;
glm::vec3 velocity;
glm::vec3 initLocation;
glm::vec3 initVelocity;
float lifeTime;
float initLifetime;
}

数据映射到存储缓冲区

void* data;
vkMapMemory(device.getDevice(), stagingBufferMemory, 0, bufferSize, 0, &data);
memcpy(data, particles, (size_t)bufferSize);
vkUnmapMemory(device.getDevice(), stagingBufferMemory);
copyBuffer(stagingBuffer, computeBuffer, bufferSize);

Copy Buffer Function(作者：Alexander Overvoorde vulkan-tutorial.com)

void copyBuffer(VkBuffer srcBuffer, VkBuffer dstBuffer, VkDeviceSize size) {
VkCommandBufferAllocateInfo allocInfo = {};
allocInfo.sType = VK_STRUCTURE_TYPE_COMMAND_BUFFER_ALLOCATE_INFO;
allocInfo.level = VK_COMMAND_BUFFER_LEVEL_PRIMARY;
allocInfo.commandPool = commandPool.getCommandPool();
allocInfo.commandBufferCount = 1;
VkCommandBuffer commandBuffer;
vkAllocateCommandBuffers(device.getDevice(), &allocInfo, &commandBuffer);
VkCommandBufferBeginInfo beginInfo = {};
beginInfo.sType = VK_STRUCTURE_TYPE_COMMAND_BUFFER_BEGIN_INFO;
beginInfo.flags = VK_COMMAND_BUFFER_USAGE_ONE_TIME_SUBMIT_BIT;
vkBeginCommandBuffer(commandBuffer, &beginInfo);
VkBufferCopy copyRegion = {};
copyRegion.size = size;
vkCmdCopyBuffer(commandBuffer, srcBuffer, dstBuffer, 1, &copyRegion);
vkEndCommandBuffer(commandBuffer);
VkSubmitInfo submitInfo = {};
submitInfo.sType = VK_STRUCTURE_TYPE_SUBMIT_INFO;
submitInfo.commandBufferCount = 1;
submitInfo.pCommandBuffers = &commandBuffer;
vkQueueSubmit(graphicsQueue.getQueue(), 1, &submitInfo, VK_NULL_HANDLE);
vkQueueWaitIdle(graphicsQueue.getQueue());
vkFreeCommandBuffers(device.getDevice(), commandPool.getCommandPool(), 1, &commandBuffer);
}

看看这个 StackOverflow 问题：

使用 std430 限定符进行内存分配

最终更正的答案：

在您的情况下，您的结构的最大成员是 vec3(浮点数的 3 元素向量)。vec3 的基本对齐与 vec4 的对齐相同。因此，数组元素的基本对齐方式等于 16 个字节。这意味着数组的每个元素都必须从 16 的倍数的地址开始。

但是，必须以递归方式对每个结构成员应用对齐规则。 3 元素向量与 4 元素向量具有相同的对齐方式。这意味着：

Position成员以与每个阵列成员相同的对齐方式开始
Velocity、IPosition和IVelocity成员必须在给定数组元素开始后以16个字节的倍数开始。
LifeTime和ILifeTime成员具有 4 个字节的对齐方式。

因此，您的结构的总大小(以字节为单位)等于：

Position- 16 字节

(Position本身需要 12 个字节，但下一个成员的对齐方式为 16 字节)
Velocity- 16 字节
IPosition- 16 字节
IVelocity+LifeTime- 16 字节
ILifeTime- 4 字节

给出 68 个字节。因此，据我了解，您需要在结构末尾填充 12 字节(数组元素之间额外的 12 个字节)，因为每个数组元素必须从 16 的倍数的地址开始。

因此，第一个数组元素从绑定到存储缓冲区的内存的偏移量 0 开始。但是第二个数组元素必须从内存乞求的偏移量 80 开始(16 的最接近倍数大于 68)，依此类推。

或者，正如@NicolBolas评论的那样，为了让生活更轻松，请将所有内容仅打包在 vec4 成员中;-)。

更好，但不是完全正确的答案：

在您的情况下，您的结构的最大成员是 vec3(浮点数的 3 元素向量)。因此，数组元素的基本对齐方式等于 12 个字节(对于 std430 布局中的结构数组，基本对齐不必向上舍入为 4 元素向量的马赫对齐。)。这意味着数组的每个元素都必须从 12 的倍数开始(不，在这种情况下，它应该从 16 的倍数开始)。

但是，必须以递归方式对每个结构成员应用对齐规则。 3 元素向量与 4 元素向量具有相同的对齐方式。这意味着：

Position成员以与每个阵列成员相同的对齐方式开始
Velocity、IPosition和IVelocity成员必须从给定数组元素开头后16个字节的倍数开始。
LifeTime和ILifeTime成员具有 4 个字节的对齐方式。

因此，您的结构的总大小(以字节为单位)等于：

Position- 16 字节

(Position本身需要 12 个字节，但下一个成员的对齐方式为 16 字节)
Velocity- 16 字节
IPosition- 16 字节
IVelocity+LifeTime- 16 字节
ILifeTime- 4 字节

给出 68 个字节。所以，据我了解，你需要在你的结构末尾有一个 4 字节的填充(数组元素之间额外的 4 个字节)，因为每个数组元素必须从 12 的倍数的地址开始(同样，我们需要 12 字节填充在这里，所以下一个数组元素从 16 的倍数开始，不是 12)。

因此，第一个数组元素从绑定到存储缓冲区的内存的偏移量 0 开始。但是第二个数组元素必须从内存乞求的偏移量 72 开始(12 的最接近倍数大于 68)，依此类推。

上一页，错误答案：

在您的情况下，最大的成员是 vec3(浮点数的 3 元素向量)。它的对齐等于 12 字节(对于结构数组，我们不必将 3 元素向量的四舍五入对齐为 4 元素向量的马赫对齐)。结构的大小(以字节为单位)等于 56。因此，据我了解，您需要在结构末尾填充 4 字节(数组元素之间额外增加 4 个字节)，因为每个数组元素必须从 12 的倍数的地址开始。

相关内容

最新更新

热门标签：