ibmcloudspeech-to-text:是否可以为自定义词汇表指定音素



我们需要用大量已经音素转录的自定义词汇来构建自定义模型,但当前用于指定自定义单词的API没有发布用于指定音素字符串的选项,而不是手动生成的ad-hoc";sounds_ like";正交字符串。由于我们还不能找到任何可靠的工具来生成等价的";听起来像";根据音素字符串的规则,这是我们成功使用IBM语音到文本引擎的真正障碍。

是否有公认的语音/音素字母表和可用的API机制来指定音素字符串,而不是另一种正字法,以指示在通过IBM云演讲到文本API将自定义单词添加到自定义模型时自定义单词的声音?(即IPA的模拟和在IBM的文本到速度API中使用它的机制?(

(或者,IBM或其他任何人是否有一个很好的工具将音素序列转换为正字法,保证通过ASR引擎重新转换回相同的音素字符串?(

通过技术支持,我发现目前有一个"深色/无证件";API中的特征,通过该特征可以指定"音素字符串"中的音素字符串;sounds_ like";通过使用以下格式封装语音字符串来规范:&";。

例如,这里有一个cURL示例,为单词"challah"添加发音"hõõ.lõ":

curl -u $CREDS  -X PUT --header "Content-Type:application/json"  --data "{"sounds_like":["<phoneme hɑː.lə>"]}" https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/$custID/words/challah

在构建CustomWord对象并通过API提交它们时,也可以使用这种格式。

IPA符号的可接受范围似乎与其文本到速度API的范围相同,可以在此处找到:https://cloud.ibm.com/docs/text-to-speech?topic=text-到语音usSymbols

相关内容

  • 没有找到相关文章

最新更新