用于识别从 0 到 20 的语音数字的深度神经网络



我想实现一个神经网络,它能够识别从0到20的英语口语数字以及两三个其他单音节单词。然后,我将使用 AI 来控制一个简单的游戏。我向你征求一些建议。你认为这可能吗?

是否有可能并且相对容易地让它工作;一个人,许多人的口音接近母语人士,许多人的口音有很多不同的口音?

我应该从语音中提取哪些数据来为网络输入;长度,音量,随着时间的推移的分量频率,还是其他什么?我打算分别识别每个单词。

我应该首先检查哪些网络架构。这里有人以前做过类似的事情吗?

您还看到这里还有哪些其他挑战?

如果有:),我会通知你我的进展 谢谢!

我相信建立一个神经网络来做这些更复杂的事情是相当容易的。我建议不要使用音量或频率来测量,因为这样你就会训练人工智能识别出特定于你的测试数据集的东西,音量将取决于许多因素,比如一个人的声音有多大,他们的麦克风有多好或多坏。频率将取决于它们是男性还是女性。成人或儿童。我建议关注平均长度,因为 20 总是需要更长的时间才能说出 no mat,你怎么说,你有多大声,然后说一个需要,人工智能将基于此进行学习。

编辑: 我还要说不要对音量进行采样,而是要测试振幅。尝试找到音频中峰值音量发生的位置,因为这将区分某些元音。"一"在工作开始时有一个峰值,O和三个峰值上升,因为"ee"的结尾比"th"的音高更高

因此,在神经网络中,这两个因子将计为 2 个独立的神经元。 1 表示长度,1 表示样品中最高振幅的位置。

最新更新