我正在尝试实现TTS。我刚刚读过关于波网的文章,但是,我对局部条件反射感到困惑。这里的原始论文解释了为局部条件反射添加时间序列,本文解释了为局部条件反射添加 mel 频谱图特征是可以的。众所周知,Wavenet 是一个生成模型,在调节时采用原始音频输入来生成高音频输出,
我的问题是,所述 MEL 频谱图功能是输入中传递的原始音频或其他一些音频。
其次,为了实现TTS,音频输入将由其他TTS系统生成,其输出质量将通过wavenet提高,我这样想是否正确?
请帮忙,这是迫切需要的。
谢谢
Mel 功能是由实际的 TTS 模块从文本(例如 tacotron2(创建的,而不是运行声码器模块(Wavenet(来创建语音。
最好尝试现有的实现,如Nvidia/tacotron2 + nvidia/waveglow。波辉比波网之间好,快得多。波网非常慢。