是否有可能在视频中提取前景,其中背景的最大部分是一个巨大的屏幕(播放视频)



我正在做一个使用kinect摄像头阵列的多视图远程呈现项目。
为了提高视觉质量,我们想提取前景,例如站在中间的人使用彩色图像,彩色图像而不是深度图像,因为我们想使用更可靠的彩色图像来修复深度图像中的一些伪影。

现在的问题是,前景对象(通常是1-2人)站在一个巨大的屏幕前,显示另一方,这也一直在移动,远程呈现系统,这个屏幕是可见的。是否还有可能提取这些图案的前景,如果可以,你能给我指出正确的方向吗?

关于现有系统的更多信息:
我们已经有了一个系统,可以合并所有节点的深度图,但这只能让我们走到目前为止。kinect深度传感器存在很多问题,例如干扰和距离。此外,颜色和深度传感器也有轻微的移位,所以当你在使用深度数据重建的网格上映射颜色(如纹理)时,你有时会在人身上映射地板。

所有这些问题都会降低深度数据的整体质量,但不会降低颜色数据,所以人们可以将彩色图像剪影视为"真实"图像,而将深度图像视为"破碎"图像。尽管如此,网格是使用深度数据构建的。因此,改进深度数据等于提高系统的质量。现在,如果你有剪影,你可以尝试删除/修改剪影外不正确的深度值和/或在

内添加缺失的深度值

谢谢你提供的每一个提示。

根据我处理这类问题的经验,您提出的策略不是最好的方法。

当你有一个非恒定的背景时,你想要解决的问题实际上是2D分割。这是一个难题,人们通常使用深度来使分割更容易,而不是相反。我会尝试结合/合并来自Kinect的多个深度地图,以改善你的深度图像,也许是采用Kinect融合的方式,或者使用经典的传感器融合技术。

如果你绝对决定遵循你的策略,你可以尝试使用你不完美的深度图来结合Kinects的RGB相机图像,以重建一个完整的背景视图(没有前面的人遮挡)。然而,由于屏幕上的背景图像不断变化,这将要求您的kinect的RGB相机同步,我认为这是不可能的。

根据注释/更新进行编辑

我认为利用你对屏幕上图像的知识是你做背景减法来增强轮廓的唯一机会。我知道这是一个棘手的问题,因为屏幕是立体显示,如果我理解正确的话。

当你在屏幕上显示特定图像时,你可以尝试计算一个模型来描述你的Kinect RGB相机所看到的内容(给定立体显示及其位置,传感器类型等),本质上是一个函数告诉你:当我在显示器上显示(r',g',b')(x',y')像素时,Kinect K看到(r, g, b)(x, y)像素。要做到这一点,你必须创建一系列校准图像,在屏幕上显示,没有人站在它前面,用Kinect拍摄。这将允许你在Kinect摄像头中预测屏幕的外观,从而计算背景减法。这是一项相当具有挑战性的任务(但如果它成功了,它将是一篇很好的研究论文)。

一个边注:你可以很容易地计算Kinect的深度摄像头和彩色摄像头的几何关系,以避免将地板映射到人身上。一些Kinect api允许你检索深度相机的原始图像。如果你覆盖了红外投影仪,你可以拍摄一个校准模式,深度和RGB相机,并计算外部校准。

最新更新