我有从 0 到 99 的 wav 文件,使它们在连接时听起来不错的最佳逻辑是什么?



例如,我"给出"数字1736,并且我有100个.wav文件(如0.wav、1.wav等(,我应该如何连接音频以使它们听起来更"流畅"。大多数时候,它们的数字之间都有差距,听起来很"硬",我想把它们听得像真人在说一样,尽可能地接近(不包括音质(。

这可以是任何语言,PHP,Python等。我只需要逻辑/算法。

不确定这是否是一个模糊的问题,请随时告诉我,如果是这样的话,我会删除它。

谢谢。

你可能遇到的问题是语调。

说话时,升调和降调有助于指示措辞。如果我说"一、七、三、六",并以一个降音(音高下降(结束,这听起来是最后的,听众知道他们已经听到了所有的数字。如果我以音调上升(音高上升(结束,听起来就像我在问一个问题,这对听众来说很奇怪,因为数字不是问题。

为了让这个声音更自然,至少,你需要用不同的语调录制每一个,并将它们正确地组合在一起。

不过,措辞还有另一个问题。在说话时,当持续移动空气并使用发音来发音时,听起来最好。如果你录制电台播音员的声音并播放,同时过滤掉所有较高的频率,这样你就听不到发音,你会听到一些接近连续音调的声音,音调会发生一些变化。这不是将音频文件连接在一起所能得到的。你能做的最好的事情就是有一个合适的语音引擎。

另请参阅:

  • https://dictionary.cambridge.org/us/grammar/british-grammar/speaking/intonation

  • http://www.americanaccent.com/intonation.html

相关内容

  • 没有找到相关文章

最新更新