我正在尝试以尽可能清晰的声音将txt文件中的一系列句子转换为WAV文件。
根据 2019 年的一项调查,使用深度学习技术取得了许多最新进展。
这是个好消息,因为内置或常用的文本到语音引擎听起来非常机器人。 (OSX的"say"命令,espeak等(。
问题是,github页面或协作笔记本链接专注于如何训练新模型或设置docker实例,并且似乎没有包含最小值。
git clone ...
./speak "How are you doing?" -o hayd.wav
您知道如何安装和运行该文章中的任何 2019 引擎来说一句话吗?
如果我找到一个有效的,我会更新。
我不知道列表中的其他任何内容,但是对于WaveNet,您可以使用Google的API。您的代码将文本发送给 Google,然后它们返回音频。有可用于C#,Go,Java,Node.js,PHP,Python和Ruby的客户端库。如果你想从另一种语言来做到这一点,你可以使用REST API。对于WaveNet,每月的前100万个字符是免费的。之后是每 1600 万个字符 16 美元。请参阅他们的定价页面。
如果您的项目是一个相对较小的一次性项目,并且您不为以编程方式进行操作而烦恼(从问题中不清楚(,那么您可以使用他们的在线演示页面并使用浏览器插件(例如视频下载助手或许多其他插件之一(将结果下载为音频文件。或者,您可以在命令行上使用 API。
在我看来,WaveNet 的质量非常出色,并且比前几代文本到语音转换算法有了巨大的改进。你几乎可以相信这些声音有时是真实的。