我正在寻找一种优化的合法方式,从nodejs上的文本创建音频文件。
现在我看到 5 个变体:
1(简单的HHTP请求谷歌翻译文本到SpappeachAPI。这个变体不好,因为每个请求都需要生成的令牌例如 'TK:729008.879154'没有这个,它可能会失败。除此之外,此选项是"非法的"。
2( 从"控制台浏览器"向谷歌翻译文本到Sppeach API的HTTP请求 - Puppeteer
有没有办法生成正确的令牌密钥以使此请求"合法"?
3(在木偶师中使用Web语音API获取二进制数据并将其保存到文件中?或者有没有办法使用铬/铬源代码?
4(使用nodejs机器上的任何其他技术/语言库,并使用js作为解释器来调用该技术/程序中的命令。有什么想法吗?
5( 任何支持不同语言的免费公共 API(梦想 API(?
任何建议将不胜感激。
一种可能的方法是将eSpeak命令行工具(Windows和Linux(包装 http://espeak.sourceforge.net/。然后,您可以使用 Node.js 进行包装。
const { exec } = require('child_process');
var outputFile = process.argv[2] || "output.wav";
var voice = process.argv[3] || "en-uk-north";
var text = process.argv[4] || "hello there buddy";
var command = `espeak.exe -v ${voice} -w ${outputFile} "${text}"`;
exec(command, (err, stdout, stderr) => {
if (err) {
console.log("Error occurred: ", err);
return;
}
});
这给出了相当低质量的输出。
我还使用过必应语音 API,输出非常好,我创建了一个 Node.js 示例。您需要注册一个API密钥,但这很容易(您可以 https://azure.microsoft.com/en-us/try/cognitive-services/并选择"语音"(。
const key = 'your api key here';
function synthesizeSpeech(apiKey)
{
const fs = require('fs');
const request = require('request');
const xmlbuilder = require('xmlbuilder');
const text = process.argv[2] || "The fault, dear Brutus, is not in our stars, But in ourselves, that we are underlings.";
const outputFile = process.argv[3] || "speech.wav";
var ssml_doc = xmlbuilder.create('speak')
.att('version', '1.0')
.att('xml:lang', 'en-au')
.ele('voice')
.att('xml:lang', 'en-au')
.att('xml:gender', 'Female')
.att('name', 'Microsoft Server Speech Text to Speech Voice (en-AU, HayleyRUS)')
.txt(text)
.end();
var post_speak_data = ssml_doc.toString();
console.log('Synthesizing speech: ', text);
request.post({
url: 'https://api.cognitive.microsoft.com/sts/v1.0/issueToken',
headers: {
'Ocp-Apim-Subscription-Key' : apiKey
}
}, function (err, resp, access_token) {
if (err || resp.statusCode != 200) {
console.log(err, resp.body);
} else {
try {
request.post({
url: 'https://speech.platform.bing.com/synthesize',
body: post_speak_data,
headers: {
'content-type' : 'application/ssml+xml',
'X-Microsoft-OutputFormat' : 'riff-16khz-16bit-mono-pcm',
'Authorization': 'Bearer ' + access_token,
'X-Search-AppId': '9FCF779F0EFB4E8E8D293EEC544221E9',
'X-Search-ClientID': '0A13B7717D0349E683C00A6AEA9E8B6D',
'User-Agent': 'Node.js-Demo'
},
encoding: null
}, function (err, resp, data) {
if (err || resp.statusCode != 200) {
console.log(err, resp.body);
} else {
try {
console.log('Saving output to file: ', outputFile);
fs.writeFileSync(outputFile, data);
} catch (e) {
console.log(e.message);
}
}
});
} catch (e) {
console.log(e.message);
}
}
});
}
synthesizeSpeech(key);
还可以在这里查看 MARY 项目: http://mary.dfki.de/,这是一个您可以安装的开源服务器,语音输出非常好,您可以从 node.js 调用服务器。
如果您安装了 Mary Speech 引擎(非常简单(:
"use strict";
const fs = require('fs');
const request = require('request');
const text = process.argv[2] || "The fault, dear Brutus, is not in our stars, But in ourselves, that we are underlings.";
const outputFile = process.argv[3] || "speech_mary_output.wav";
const options = {
url: `http://localhost:59125/process?INPUT_TEXT=${text}!&INPUT_TYPE=TEXT&OUTPUT_TYPE=AUDIO&AUDIO=WAVE_FILE&LOCALE=en_US&VOICE=cmu-slt-hsmm`,
encoding: null // Binary data.
}
console.log('Synthesizing speech (using Mary engine): ', text);
console.log('Calling: ', options.url);
request.get(options, function (err, resp, data) {
if (err || resp.statusCode != 200) {
console.log(err, resp.body);
} else {
try {
console.log(`Saving output to file: ${outputFile}, length: ${data.length} byte(s)`);
fs.writeFileSync(outputFile, data, { encoding: 'binary'});
} catch (e) {
console.log(e.message);
}
}
});
这将为您合成语音。无需 API 密钥!
使用 text2wav.node.js,您无需依赖任何外部在线服务或单独安装的主机程序。这都是自给自足的FOSS。此外,它还支持101种语言。