波网的输入是什么?

我正在尝试实现TTS。我刚刚读过关于波网的文章，但是，我对局部条件反射感到困惑。这里的原始论文解释了为局部条件反射添加时间序列，本文解释了为局部条件反射添加 mel 频谱图特征是可以的。众所周知，Wavenet 是一个生成模型，在调节时采用原始音频输入来生成高音频输出，

我的问题是，所述 MEL 频谱图功能是输入中传递的原始音频或其他一些音频。

其次，为了实现TTS，音频输入将由其他TTS系统生成，其输出质量将通过wavenet提高，我这样想是否正确？

请帮忙，这是迫切需要的。

谢谢

Mel 功能是由实际的 TTS 模块从文本(例如 tacotron2(创建的，而不是运行声码器模块(Wavenet(来创建语音。

最好尝试现有的实现，如Nvidia/tacotron2 + nvidia/waveglow。波辉比波网之间好，快得多。波网非常慢。

相关内容