从网络研讨会字幕培训Word2Vec



我正在构建一个模型,根据上下文,从时间范围开始播放视频。例如,播放电影的高潮,从第59分钟开始演奏。

我正在使用视频的字幕,并在特定序列中匹配文本并确定时间范围。我正在尝试找到带有真实表达式的确切单词$$,不是那么有效$$。我遇到了Word2Vec,它可以找到具有余弦相似性的典型单词

请发布网络研讨会标题的示例和搜索术语,以获得更好的答案,但根据您发布的内容。如果您使用的是已经可用的几个预训练的向量,则不一定需要培训新的Word2Vec模型。这是:

1(使用预训练的Word2Vec向量计算搜索词的向量。

2(计算每个字幕的向量并存储在合适的列表中

3(使用ML库中的cosine_simerity函数来计算从步骤1开始的向量之间的相似性,从步骤2开始列表中的每个向量。

4(带有相似度得分最接近1的字幕是您正在寻找的内容,您可以将该帧的相关时间倒转

最新更新