ibmcloudspeech-to-text:是否可以为自定义词汇表指定音素

我们需要用大量已经音素转录的自定义词汇来构建自定义模型，但当前用于指定自定义单词的API没有发布用于指定音素字符串的选项，而不是手动生成的ad-hoc"；sounds_ like"；正交字符串。由于我们还不能找到任何可靠的工具来生成等价的"；听起来像"；根据音素字符串的规则，这是我们成功使用IBM语音到文本引擎的真正障碍。

是否有公认的语音/音素字母表和可用的API机制来指定音素字符串，而不是另一种正字法，以指示在通过IBM云演讲到文本API将自定义单词添加到自定义模型时自定义单词的声音？(即IPA的模拟和在IBM的文本到速度API中使用它的机制？(

(或者，IBM或其他任何人是否有一个很好的工具将音素序列转换为正字法，保证通过ASR引擎重新转换回相同的音素字符串？(

通过技术支持，我发现目前有一个"深色/无证件"；API中的特征，通过该特征可以指定"音素字符串"中的音素字符串；sounds_ like"；通过使用以下格式封装语音字符串来规范：&"；。

例如，这里有一个cURL示例，为单词"challah"添加发音"hõõ.lõ"：

curl -u $CREDS  -X PUT --header "Content-Type:application/json"  --data "{"sounds_like":["<phoneme hɑː.lə>"]}" https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/$custID/words/challah

在构建CustomWord对象并通过API提交它们时，也可以使用这种格式。

IPA符号的可接受范围似乎与其文本到速度API的范围相同，可以在此处找到：https://cloud.ibm.com/docs/text-to-speech?topic=text-到语音usSymbols

相关内容

最新更新

热门标签：