Alexa是如何编程唱歌的



如果你说"Alexa,为我歌唱";,她将从用她的声音创作的几首歌曲中选择一首。每首歌的声音一定是以某种方式创造出来的。

起初,我认为SSML将提供执行此操作所需的工具,尤其是具有pitchrate(持续时间(参数的<prosody>标签。

我想也许唱歌的每个音节都可以用<phoneme>指定发音,用<prosody>指定音高和持续时间,<break>标签介于两者之间:

<speak>
<prosody rate="20%">
<phoneme alphabet="x-sampa" ph="U">oo</phoneme>
<break strength="none" />
</prosody>
<prosody rate="20%" pitch="+50%">
<phoneme alphabet="x-sampa" ph="U">oo</phoneme>
<break strength="none" />
</prosody>
<prosody rate="20%">
<phoneme alphabet="x-sampa" ph="U">oo</phoneme>
</prosody>
</speak> 

然而,当执行时,Alexa应用了她内置的屈折(听起来像真人(,因此音调并不平坦。这些";哦"例如,每个声音(如上(都有一个降调。(即使明确指定了"无中断",它们在音素之间也有明显的中断。(

那么,听到Alexa演唱所有这些歌曲的声音是如何被编程的它是通过目前只对亚马逊开发人员可用的工具实现的吗?

同样让我困惑的是,我显然是互联网上唯一一个问这个问题的人(基于stackoverflow、谷歌等网站的零结果(,尤其是在游戏后期。难道没有很多音乐家愿意让Alexa随心所欲地唱歌吗?

编辑:伙计们,我以为这是常识,但Alexa背后没有人声演员。她的声音完全是电脑生成的。

Alexa的声音完全由计算机生成,歌曲也是如此。正在对生成歌唱合成器模型(#1和#2(进行研究。

这是Popgun实验室关于他们如何让人工智能唱歌的视频。虽然我无法找到亚马逊和谷歌是如何做到这一点的,但我想这将是类似的。

编辑:我之前的回答是基于扩展页,得出了不正确的结论。

我的预测要么是像自然语言处理之类的非常奇特的东西,要么是围绕着这句台词的东西,AI/ML,要么他们只是让配音演员唱出一些东西或唱出特定的音调,然后把它们剪在一起,我没有Alexa,但我有一个HomePod mini和一部iPhone,它发音我们当地歌手的名字,比如";sidhu moosewala";或";amrit maan";(离题但仍然相关(我相信他们只是把单词剪成一个";"干净";以及"流动";方法

也许她的声音只是自动调谐

当然,音高转换工具可以从任何音频源强制任何想要的音高,我认为这样的工具也可以强制改变持续时间。

相关内容

  • 没有找到相关文章

最新更新