我尝试将PyTorch对象检测模型(Faster R-CNN(转换为ONNX。我有两个设置。第一个工作正常,但出于部署原因,我想使用第二个。区别在于我用于导出函数torch.onnx.export((.的示例图像
在第一个设置中,我使用真实图像作为ONNX导出的输入。但在一个官方教程中,他们说我可以使用一个伪输入,它应该与模型期望的输入大小相同。所以我创建了一个形状相同但具有随机值的张量。两个设置中的导出都正常工作。但是第二个设置在使用ONNX运行时进行推理后并不能提供所需的结果。代码和示例性输出可以在下面找到。
设置1
model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained = True)
...
checkpoint = torch.load(model_state_dict_path)
model.load_state_dict(checkpoint['model_state_dict'])
model.eval()
to_tensor = transforms.ToTensor()
img_rgb = Image.open(image_path_model).convert('RGB')
img_rgb = to_tensor(img_rgb)
img_rgb.unsqueeze_(0)
torch.onnx.export(model, img_rgb, "detection.onnx", opset_version=11)
我没有得到任何错误和导出工作。然后,我用ONNX运行时运行模型,得到以下输出:
[array([[704.0696 , 535.19556 , 944.8986 , 786.1619 ],
...], dtype=float32),
array([2, 2, 2, 2, 2, 1, 1], dtype=int64),
array([0.9994363 , 0.9984769 , 0.99816966, ...], dtype=float32)]
输出是我所期望的(边界框、对象类和概率(。
设置2
model = torchvision.models.detection.fasterrcnn_resnet50_fpn(pretrained = True)
...
checkpoint = torch.load(model_state_dict_path)
model.load_state_dict(checkpoint['model_state_dict'])
model.eval()
img_rgb = torch.randn(1, 3, 1024, 1024)
torch.onnx.export(model, img_rgb, "detection.onnx", opset_version=11)
就像在设置1中一样,我没有得到任何错误,并且导出工作正常。然后,我用ONNX运行时运行模型,并使用与设置1中相同的图像,得到以下输出:
[array([], shape=(0, 4), dtype=float32),
array([], dtype=int64),
array([], dtype=float32)]
它只是一个空数组。
第二个设置有什么问题?我是ONNX的新手。导出将运行模型。我是否必须提供一个模型也能识别对象的输入,因此具有随机值的伪输入不起作用?语句"只要类型和大小正确,其中的值就可以是随机的。">是否仅对所提供的教程有效?
在第二个设置中,您有一个随机张量,因此没有选择检测分数足够高的边界框。检查您是否有可检测对象的图像作为输入。
我假设关于随机输入的短语在大多数情况下是正确的(分类、分割等(,但检测模型使用NonMaxSuppression并抑制低分数的检测。