用于识别从 0 到 20 的语音数字的深度神经网络

我想实现一个神经网络，它能够识别从0到20的英语口语数字以及两三个其他单音节单词。然后，我将使用 AI 来控制一个简单的游戏。我向你征求一些建议。你认为这可能吗？

是否有可能并且相对容易地让它工作;一个人，许多人的口音接近母语人士，许多人的口音有很多不同的口音？

我应该从语音中提取哪些数据来为网络输入;长度，音量，随着时间的推移的分量频率，还是其他什么？我打算分别识别每个单词。

我应该首先检查哪些网络架构。这里有人以前做过类似的事情吗？

您还看到这里还有哪些其他挑战？

如果有:)，我会通知你我的进展谢谢！

我相信建立一个神经网络来做这些更复杂的事情是相当容易的。我建议不要使用音量或频率来测量，因为这样你就会训练人工智能识别出特定于你的测试数据集的东西，音量将取决于许多因素，比如一个人的声音有多大，他们的麦克风有多好或多坏。频率将取决于它们是男性还是女性。成人或儿童。我建议关注平均长度，因为 20 总是需要更长的时间才能说出 no mat，你怎么说，你有多大声，然后说一个需要，人工智能将基于此进行学习。

编辑：我还要说不要对音量进行采样，而是要测试振幅。尝试找到音频中峰值音量发生的位置，因为这将区分某些元音。"一"在工作开始时有一个峰值，O和三个峰值上升，因为"ee"的结尾比"th"的音高更高

因此，在神经网络中，这两个因子将计为 2 个独立的神经元。 1 表示长度，1 表示样品中最高振幅的位置。

相关内容

最新更新

热门标签：