自动对准音频轨道与定时配音屏幕播放



我们有一些需要被配音成各种语言的屏幕播放,我们有目标语言的文本脚本,如下所示:

<>之前开始时间音频叙述0:0不,不,不,我爱你。1:20 xao dok DKJV dwv......之前

我们可以单独记录上述每个单元,然后按照上述脚本中提到的在适当的开始时间对齐。

例子:

输入:

输入N个定时值:0:0,1:20…然后输入N个音频记录

输出:

与上述时间对齐的音频记录。溢流应该由系统单独检测,而下流则由沉默填充。

是否有任何平台独立的音频api 软件或代码片段,最好是在python中,允许我们根据提供的时间对齐这些音频单元?

如果输入的音频文件是未压缩的(即WAV文件等),我喜欢使用的音频库是libsndfile。这里似乎有一个python包装器:https://code.google.com/p/libsndfile-python/。考虑到这一点,剩下的可以像这样完成:

使用libsndfile

打开一个输出音频流来写入音频数据

对于每个输入音频文件,使用libsndfile

打开一个输入流

根据文本描述'script'提取给定音频文件的元数据信息

将所需的静默写入主输出流,然后将数据从输入流写入输出流。注意当前位置/时间。对每个输入音频文件重复此步骤,检查音频剪辑的目标开始时间始终>=前面记录的当前位置/时间。如果没有,那么就有重叠。

当然,您必须担心样本率匹配等,但这应该足以开始。另外,我不太确定您是要编写单个输出文件,还是为每个输入文件编写一个输出文件,但是这个答案应该是足够的。假设Libsndfile支持输入文件格式,它将为您提供所需的所有信息(例如剪辑长度等)。

最新更新