torch.optim 返回多维张量的"ValueError: can't optimize a non-leaf Tensor"

我正在尝试使用torch.optim.adam优化场景顶点的平移。它是redner教程系列中的代码片段，在初始设置下工作正常。它尝试通过移动所有顶点来优化场景，该值称为translation。这是原始代码：

vertices = []
for obj in base:
vertices.append(obj.vertices.clone())
def model(translation):
for obj, v in zip(base, vertices):
obj.vertices = v + translation
# Assemble the 3D scene.
scene = pyredner.Scene(camera = camera, objects = objects)
# Render the scene.
img = pyredner.render_albedo(scene)
return img
# Initial guess
# Set requires_grad=True since we want to optimize them later
translation = torch.tensor([10.0, -10.0, 10.0], device = pyredner.get_device(), requires_grad=True)
init = model(translation)
# Visualize the initial guess
t_optimizer = torch.optim.Adam([translation], lr=0.5)

我尝试修改代码，使其为每个顶点计算单独的转换。为此，我对上面的代码进行了以下修改，使translation的形状从torch.Size([3])到torch.Size([43380, 3])：

# translation = torch.tensor([10.0, -10.0, 10.0], device = pyredner.get_device(), requires_grad=True)
translation = base[0].vertices.clone().detach().requires_grad_(True)
translation[:] = 10.0

这介绍了ValueError: can't optimize a non-leaf Tensor。你能帮我解决这个问题吗？

PS：很抱歉文字太长了，我对这个主题很陌生，我想尽可能全面地陈述问题。

只能优化叶张量。叶张量是在图的开头创建的张量，即图中没有跟踪任何操作来生成它。换句话说，当您使用requires_grad=True将任何操作应用于张量时，它会跟踪这些操作以稍后进行反向传播。您不能向优化器提供这些中间结果之一。

一个例子更清楚地表明了这一点：

weight = torch.randn((2, 2), requires_grad=True)
# => tensor([[ 1.5559,  0.4560],
#            [-1.4852, -0.8837]], requires_grad=True)
weight.is_leaf # => True
result = weight * 2
# => tensor([[ 3.1118,  0.9121],
#            [-2.9705, -1.7675]], grad_fn=<MulBackward0>)
# grad_fn defines how to do the back propagation (kept track of the multiplication)
result.is_leaf # => False

此示例中的result无法优化，因为它不是叶张量。同样，在您的情况下translation不是叶张量，因为您在创建后执行的操作：

translation[:] = 10.0
translation.is_leaf # => False

这grad_fn=<CopySlices>因此它不是叶子，您不能将其传递给优化器。为了避免这种情况，您必须从中创建一个与图分离的新张量。

# Not setting requires_grad, so that the next operation is not tracked
translation = base[0].vertices.clone().detach()
translation[:] = 10.0
# Now setting requires_grad so it is tracked in the graph and can be optimised
translation = translation.requires_grad_(True)

你在这里真正要做的是创建一个填充值为 10.0 的新张量，其大小与顶点张量相同。这可以通过torch.full_like更轻松地实现

translation = torch.full_like(base[0],vertices, 10.0, requires_grad=True)

什么是叶变量？

叶变量是位于图形开头的变量。这意味着 Autograd 引擎跟踪的任何操作都没有创建变量(这就是为什么它被称为叶变量(。在优化神经网络期间，我们希望更新叶变量，例如模型权重、输入等。

因此，为了能够向优化器提供张量，它们应该遵循上面叶变量的定义。

举几个例子。

a = torch.rand(10, requires_grad=True)

在这里，a是一个叶变量。

a = torch.rand(10, requires_grad=True).double()

在这里，a不是叶变量，因为它是由将浮点张量转换为双张量的操作创建的。

a = torch.rand(10).requires_grad_().double()

这等效于前面的公式：a不是叶变量。

a = torch.rand(10).double()

在这里，a不需要渐变，也没有创建梯度的操作(由 Autograd 引擎跟踪(。

a = torch.rand(10).doube().requires_grad_()

在这里，a需要 grad，并且没有创建它的操作：它是一个叶变量，可以提供给优化器。

a = torch.rand(10, requires_grad=True, device="cuda")

在这里，a需要 grad，并且没有创建它的操作：它是一个叶变量，可以提供给优化器。

我从这个讨论线程中借用了上面的解释。

因此，在您的情况下，translation[:] = 10.0操作使translation成为非叶变量。一个潜在的解决方案是：

translation = base[0].vertices.clone().detach()
translation[:] = 10.0
translation = translation.requires_grad_(True)

在上一条语句中，您设置了requires_grad，因此，现在将对其进行跟踪和优化。

相关内容

最新更新

热门标签：