掌握机器学习的手部姿势估计



我想做的是..

数据集:一只手拿着棍子的照片,我知道关节的三维位置,或者每张照片的三维姿势。照片是从同一个位置拍摄的,所以只有手在动。输入:手的图片输出:3D手势这可能吗?如果可能的话,如何做到?由于我是ML的新手,所以我想获得一些好的理解方法。谢谢

这应该是可能的,但这将是一个艰苦的研究项目。

因为这个问题需要如此复杂的输出,所以解决这个问题的机器学习方法需要大量的训练示例,比手工生成的要多。一个好的方法可能是制作一个小程序,可以用随机照明、随机手大小等方式3D渲染姿势x的手的图像。然后将数百万张训练图像输入到具有深度学习的卷积神经网络中,最终输出神经元对姿势进行编码。

使用相同的程序,另一种方法是对姿势进行梯度下降,重复渲染姿势,直到获得最佳匹配。这被称为生成模型。它不涉及神经网络,但可能会很慢。毫无疑问,还有其他方法。

如果你感兴趣,微软一直在解决这个问题,以启用新型的Xbox Kinect游戏:https://www.microsoft.com/en-us/research/project/fully-articulated-hand-tracking/

总而言之,如果你是计算机视觉和机器学习的新手,我建议你先从更简单的挑战开始。

最新更新