如何提高 Watson 语音转文本的准确性?

我知道 Watson Speech To Text 对于口语对话和 1 或 2 个说话者进行了某种校准。我也知道它可以比 WAV 和 OGG 更好地处理 FLAC。

我想知道如何从声学上改进算法识别。

我的意思是，增加音量有帮助吗？也许使用一些压缩过滤器？噪？

什么样的预处理可以帮助这项服务？

提高基本模型(非常准确但也非常通用(准确性的最佳方法是使用 Watson STT 自定义服务：https://www.ibm.com/watson/developercloud/doc/speech-to-text/custom.html。这将允许您创建适合您域具体情况的自定义模型。如果您的域与基本模型捕获的域不是非常匹配，那么您可以期望识别准确性大大提高。

重新调整您的评论"我也知道它可以比 WAV 和 OGG 更好地处理 FLAC"，事实并非如此。Watson STT 服务提供对 flac、wav、ogg 和其他格式的全面支持(请参阅文档的这一部分：https://www.ibm.com/watson/developercloud/doc/speech-to-text/input.html#formats(。

相关内容

最新更新

热门标签：