如何将不同尺度的视频卷转换为描述符





我读了这篇文章(链接(,并尝试理解在那里呈现的算法。
因此,现在我了解了本文几乎所有的观点,但是有疑问:

如何将不同尺度的视频卷转换为描述符?

据我了解,如果我的视频具有100帧的120*160,那么我将其应用具有不同尺度的密集比例(例如[5*5*5, 10*10*10, 20*20*20](,那么我将分别获得[15360, 1920, 240]立方体。但是,在此之后,我需要为它们制作描述符,并且描述符的长度必须相同(在本文中,描述符的长度与立方体的大小相同,因此[125, 1000, 8000](。

我认为是为每个像素立方体创建的解决方案之一,之后将它们与长度为9125的一个向量进行连接。这是对的吗?

,所以我找到了答案。
我必须在每个像素周围建造每个尺寸的立方体(因此,每个大小都大约为1920000立方体(

最新更新