在ffmpeg H.264解码器中修改运动矢量



出于研究目的,我试图在解码过程中进行运动补偿之前,修改每个p帧和B帧的H.264运动矢量(MV)。我使用FFmpeg就是为了这个目的。修改的一个示例是用其原始空间邻居替换每个MV,然后使用所得MV而不是原始MV进行运动补偿。请适当地指示我。

到目前为止,我已经能够对/libavcodec/h264_cavc.c文件中的MV进行简单修改。在函数ff_h264_decode_mb_cavlc()中,修改mxmy变量,例如,通过增加它们的值来修改解码过程中使用的MV。

例如,如下所示,mxmy的值增加了50,从而延长了解码器中使用的MV。

mx += get_se_golomb(&s->gb)+50;
my += get_se_golomb(&s->gb)+50;

然而,在这方面,我不知道如何访问mxmy的邻居,以进行我在第一段中提到的空间均值分析。我认为这样做的关键在于操作数组,mv_cache

我执行的另一个实验是在文件libavcodec/error_resilience.c中。基于guess_mv()函数,我创建了一个新函数mean_mv(。如果其中一个条件是零错误计数(s->error_count==0),则第一个if语句将退出函数ff_er_frame_end()。然而,我决定在这一点上插入mean_mv()函数,以便在错误计数为零时始终执行该函数。这个实验在一定程度上产生了我想要的结果,因为我可以开始在视频的顶部看到伪影,但它们仅限于右上角。我猜我插入的函数没有完成,以满足播放截止日期或其他什么。

下面是修改后的if语句。唯一添加的是我的函数,mean_mv(s)

if(!s->error_recognition || s->error_count==0 || s->avctx->lowres ||
       s->avctx->hwaccel ||
       s->avctx->codec->capabilities&CODEC_CAP_HWACCEL_VDPAU ||
       s->picture_structure != PICT_FRAME || // we dont support ER of field pictures yet, though it should not crash if enabled
       s->error_count==3*s->mb_width*(s->avctx->skip_top + s->avctx->skip_bottom)) {
        //av_log(s->avctx, AV_LOG_DEBUG, "ff_er_frame_end in er.cn"); //KG
        if(s->pict_type==AV_PICTURE_TYPE_P)
            mean_mv(s);
        return;

这是我基于guess_mv()创建的mean_mv(。

static void mean_mv(MpegEncContext *s){
    //uint8_t fixed[s->mb_stride * s->mb_height];
    //const int mb_stride = s->mb_stride;
    const int mb_width = s->mb_width;
    const int mb_height= s->mb_height;
    int mb_x, mb_y, mot_step, mot_stride;
    //av_log(s->avctx, AV_LOG_DEBUG, "mean_mvn"); //KG
    set_mv_strides(s, &mot_step, &mot_stride);
    for(mb_y=0; mb_y<s->mb_height; mb_y++){
        for(mb_x=0; mb_x<s->mb_width; mb_x++){
            const int mb_xy= mb_x + mb_y*s->mb_stride;
            const int mot_index= (mb_x + mb_y*mot_stride) * mot_step;
            int mv_predictor[4][2]={{0}};
            int ref[4]={0};
            int pred_count=0;
            int m, n;
            if(IS_INTRA(s->current_picture.f.mb_type[mb_xy])) continue;
            //if(!(s->error_status_table[mb_xy]&MV_ERROR)){
            //if (1){
            if(mb_x>0){
                mv_predictor[pred_count][0]= s->current_picture.f.motion_val[0][mot_index - mot_step][0];
                mv_predictor[pred_count][1]= s->current_picture.f.motion_val[0][mot_index - mot_step][1];
                ref         [pred_count]   = s->current_picture.f.ref_index[0][4*(mb_xy-1)];
                pred_count++;
            }
            if(mb_x+1<mb_width){
                mv_predictor[pred_count][0]= s->current_picture.f.motion_val[0][mot_index + mot_step][0];
                mv_predictor[pred_count][1]= s->current_picture.f.motion_val[0][mot_index + mot_step][1];
                ref         [pred_count]   = s->current_picture.f.ref_index[0][4*(mb_xy+1)];
                pred_count++;
            }
            if(mb_y>0){
                mv_predictor[pred_count][0]= s->current_picture.f.motion_val[0][mot_index - mot_stride*mot_step][0];
                mv_predictor[pred_count][1]= s->current_picture.f.motion_val[0][mot_index - mot_stride*mot_step][1];
                ref         [pred_count]   = s->current_picture.f.ref_index[0][4*(mb_xy-s->mb_stride)];
                pred_count++;
            }
            if(mb_y+1<mb_height){
                mv_predictor[pred_count][0]= s->current_picture.f.motion_val[0][mot_index + mot_stride*mot_step][0];
                mv_predictor[pred_count][1]= s->current_picture.f.motion_val[0][mot_index + mot_stride*mot_step][1];
                ref         [pred_count]   = s->current_picture.f.ref_index[0][4*(mb_xy+s->mb_stride)];
                pred_count++;
            }
            if(pred_count==0) continue;
            if(pred_count>=1){
                int sum_x=0, sum_y=0, sum_r=0;
                int k;
                for(k=0; k<pred_count; k++){
                    sum_x+= mv_predictor[k][0]; // Sum all the MVx from MVs avail. for EC
                    sum_y+= mv_predictor[k][1]; // Sum all the MVy from MVs avail. for EC
                    sum_r+= ref[k];
                    // if(k && ref[k] != ref[k-1])
                    // goto skip_mean_and_median;
                }
                mv_predictor[pred_count][0] = sum_x/k;
                mv_predictor[pred_count][1] = sum_y/k;
                ref         [pred_count]    = sum_r/k;
            }
            s->mv[0][0][0] = mv_predictor[pred_count][0];
            s->mv[0][0][1] = mv_predictor[pred_count][1];
            for(m=0; m<mot_step; m++){
                for(n=0; n<mot_step; n++){
                    s->current_picture.f.motion_val[0][mot_index + m + n * mot_stride][0] = s->mv[0][0][0];
                    s->current_picture.f.motion_val[0][mot_index + m + n * mot_stride][1] = s->mv[0][0][1];
                }
            }
            decode_mb(s, ref[pred_count]);
            //}
        }
    }
}

我真的很感激在如何正确处理这件事上得到一些帮助。

很长一段时间以来,我一直与FFMPEG的内部代码脱节。

然而,鉴于我对FFMPEG内部恐怖事件的经验(你会知道我的意思),我宁愿给你一个简单务实的建议。

建议#1
最好的可能性是,当识别出每个块的运动矢量时,您可以在FFMPEG编码器上下文(也称为s)中创建自己的附加数组,该数组将存储所有块。当你的算法运行时,它会从中获取值。

建议#2
我读到的另一件事(我不确定我是否读对了)

mx和my的值增加了50

我认为50是一个非常大的运动矢量。通常,运动矢量编码的F值范围将是先验限制性的。如果你将事物更改+/-8(甚至+/-16)可能还可以,但+50可能太高,最终结果可能无法正确编码。

我不太理解你关于mean_mv()的目标,以及你期望从中得到什么样的失败

最新更新