我想训练并使用一个基于ML的个人语音到文本转换器,用于高度受损的语音,用于300-400个单词的小集合。这是用于有语音障碍的人。但不能是通用的,因为每个人都会有一个独特的单词语音输入,这取决于他们的损伤类型。
想知道是否有任何ML引擎允许这样的训练。如果没有,最好的方法是什么。
感谢
大多数语音识别引擎都支持训练(wav2letter、deeptspeech、espnet、kaldi等(,您只需要输入数据即可。唯一的问题是,您需要大量数据来进行可靠的训练(每个单词有1000个样本(。您可以查看Google命令数据集,了解如何从头开始训练。
由于训练数据集对于您的案例来说非常小,并且只由几个样本组成,因此您可能可以从现有的预训练模型开始,并在样本上对其进行微调,以获得最佳精度。你需要关注";很少有短期学习";设置。
您可能可以查看wav2vec 2.0预训练模型,它应该对此类学习有效。您可以在这里找到用于微调和推断的示例和命令。
您也可以尝试在NVIDIA NEMO的谷歌命令中微调Jauser模型。它可能会稍微不那么有效,但仍然可以工作,并且应该更容易设置。
我强烈建议观看youtube原创系列"AI时代s第一季第二集。
基本上,谷歌已经为那些无法用被刺穿的声音形成正常单词的人做了这件事。它非常有趣,并讲述了他们是如何做到这一点的,以及如何使用ML技术做到这一点将。
在此处输入链接描述