我正在开发一个修改后的语音到文本功能,该功能应该接收用户的语音并将其转换为文本,但我希望输出的文本与用户所说的完全一样。这意味着我想检测单词不流畅,比如像"ssttop"one_answers"pppplease"这样的口吃。我已经写了一个Java程序,可以将语音转换为文本,但我需要知道是否可以修改它来检测语音不流畅。任何意见和帮助都将不胜感激。
我认为最好从stammer 的演讲中改进文本的结构
我的第一个猜测是,您必须分析用户产生每个特定声音所花费的时间。例如,一个S可以是半秒的"S"音,而两个"S"可以由用户发出一秒的声音来表示。我知道这并不完全准确,但我能想到的最好的猜测。
作为一个经常使用语音到文本api的人,你想要的是有点难以实现,然而,有一个功能可能会对你有所帮助。根据您使用的提供商,尝试查找custom vocabulary
,它允许您指定一些单词,以便在转录具有增强值的音频时记住。
然而,Disfluencies
,我相信它与您使用的提供商密切相关,除了一些值之外,它们中的一些会完全删除像assembly
这样的填充工作,其他的,比如微软,会给您提供许多转录,其中一些带有单词disfluency,另一些则没有。请看一下这个链接:微软不流畅删除