为什么 TTS(文本到语音转换)提示在一个环境中测试时正常播放,而在另一些环境中则不然?



我是一名软件工程师,在一家使用 TTS 进行电话项目的公司工作。当我调用以测试我们的 VUI 及其相应的功能和 TTS 提示是否正常工作时,我经常遇到以下问题。

当我运行测试(拨打电话和导航 VUI (时,在我们的本地环境中,我会随机收到停止播放几秒钟的提示。不是听到提示,而是沉默,然后提示从您期望的截止开始几秒钟的地方拾取。

例如,接受提示:"您好,感谢您今天致电。 在某些时候,在我们当地的环境中进行测试时,我会听到,例如,"你好,今天短暂的沉默打电话。

但是,当我在我们部署到的环境中运行完全相同的测试时,我听到的提示与我预期相同。我知道环境问题在TTS中可能很常见,特别是提示剪掉并且没有清楚地播放,但我很好奇,谁能详细说明这些"环境问题"可能是什么?此外,我知道这些问题不是语法问题。我将运行完美说出提示的测试,但是当我给出无输入或不匹配响应时,点击下一个函数,在这种情况下,该函数本质上是完全相同的提示,会发生截止/静音。

任何信息,网站或书籍都非常感谢。我个人还没有在网上找到任何关于这些东西的东西。提前感谢!

TTS - 文本到语音转换是一个活跃的过程。根据您的平台实现 TTS 的方式,它可能会直接从 TTS 服务器进行流式传输。 可能发生的情况是 TTS 引擎无法跟上请求。

如果这是在本地(现在不太可能(,请监视 TTS 服务器的性能。CPU 是最好的指标。 如果平台使用 MRCP(可能(日志进行该通信可能会提供见解。

如果这是托管解决方案,请与提供商联系。 很有可能,他们的测试环境没有为 TTS 配置不足。 主要是因为在测试环境中,其他人都在做同样的事情。 在生产中,许多应用切换到录制的音频以提高质量,因此减少了 TTS 资源的规模。

对于丑陋的黑客,您可以在所有形式的开头播放 1 秒静音的录音(实际音频文件(。 这可能会给 TTS 服务器足够的时间来提前并缓冲音频生成。

最新更新