自动对准音频轨道与定时配音屏幕播放

我们有一些需要被配音成各种语言的屏幕播放，我们有目标语言的文本脚本，如下所示:

<>之前开始时间音频叙述0:0不，不，不，我爱你。1:20 xao dok DKJV dwv.....．之前

我们可以单独记录上述每个单元，然后按照上述脚本中提到的在适当的开始时间对齐。

例子:

输入:

输入N个定时值:0:0,1:20…然后输入N个音频记录

输出:

与上述时间对齐的音频记录。溢流应该由系统单独检测，而下流则由沉默填充。

是否有任何平台独立的音频api 软件或代码片段，最好是在python中，允许我们根据提供的时间对齐这些音频单元?

如果输入的音频文件是未压缩的(即WAV文件等)，我喜欢使用的音频库是libsndfile。这里似乎有一个python包装器:https://code.google.com/p/libsndfile-python/。考虑到这一点，剩下的可以像这样完成:

使用libsndfile

打开一个输出音频流来写入音频数据

对于每个输入音频文件，使用libsndfile

打开一个输入流

根据文本描述'script'提取给定音频文件的元数据信息

将所需的静默写入主输出流，然后将数据从输入流写入输出流。注意当前位置/时间。对每个输入音频文件重复此步骤，检查音频剪辑的目标开始时间始终>=前面记录的当前位置/时间。如果没有，那么就有重叠。

当然，您必须担心样本率匹配等，但这应该足以开始。另外，我不太确定您是要编写单个输出文件，还是为每个输入文件编写一个输出文件，但是这个答案应该是足够的。假设Libsndfile支持输入文件格式，它将为您提供所需的所有信息(例如剪辑长度等)。

相关内容