语音到文本的修改

我正在开发一个修改后的语音到文本功能，该功能应该接收用户的语音并将其转换为文本，但我希望输出的文本与用户所说的完全一样。这意味着我想检测单词不流畅，比如像"ssttop"one_answers"pppplease"这样的口吃。我已经写了一个Java程序，可以将语音转换为文本，但我需要知道是否可以修改它来检测语音不流畅。任何意见和帮助都将不胜感激。

我认为最好从stammer 的演讲中改进文本的结构

我的第一个猜测是，您必须分析用户产生每个特定声音所花费的时间。例如，一个S可以是半秒的"S"音，而两个"S"可以由用户发出一秒的声音来表示。我知道这并不完全准确，但我能想到的最好的猜测。

作为一个经常使用语音到文本api的人，你想要的是有点难以实现，然而，有一个功能可能会对你有所帮助。根据您使用的提供商，尝试查找custom vocabulary，它允许您指定一些单词，以便在转录具有增强值的音频时记住。

然而，Disfluencies，我相信它与您使用的提供商密切相关，除了一些值之外，它们中的一些会完全删除像assembly这样的填充工作，其他的，比如微软，会给您提供许多转录，其中一些带有单词disfluency，另一些则没有。请看一下这个链接：微软不流畅删除

相关内容

最新更新

热门标签：