我使用Windows.Media.SpeechSynthesis (c++/WinRT)将文本转换为音频文件。以前我使用SAPI,在说话之前可以通过SPBindToFile(…)绑定到文件时设置音频格式。
在Windows.Media.SpeechSynthesis中是否有类似的方法?似乎只有可能得到16kHz, 16Bit,单声道波流,是吗?
是否语音合成后已经包含了一个真实的音频流,或者它持有一些预先计算的原始数据,并在访问其数据时发生实际编码(在设备上播放或复制到另一个非语音特定流)?
谢谢!
我认为应该有可能以某种方式控制语音合成流格式。
WinRT合成引擎输出16Khz 16位单声道数据。没有任何重采样层来改变格式。