从网络研讨会字幕培训Word2Vec

我正在构建一个模型，根据上下文，从时间范围开始播放视频。例如，播放电影的高潮，从第59分钟开始演奏。

我正在使用视频的字幕，并在特定序列中匹配文本并确定时间范围。我正在尝试找到带有真实表达式的确切单词$$，不是那么有效$$。我遇到了Word2Vec，它可以找到具有余弦相似性的典型单词

请发布网络研讨会标题的示例和搜索术语，以获得更好的答案，但根据您发布的内容。如果您使用的是已经可用的几个预训练的向量，则不一定需要培训新的Word2Vec模型。这是：

1(使用预训练的Word2Vec向量计算搜索词的向量。

2(计算每个字幕的向量并存储在合适的列表中

3(使用ML库中的cosine_simerity函数来计算从步骤1开始的向量之间的相似性，从步骤2开始列表中的每个向量。

。

4(带有相似度得分最接近1的字幕是您正在寻找的内容，您可以将该帧的相关时间倒转

相关内容