针对受损语音的语音到文本训练

我想训练并使用一个基于ML的个人语音到文本转换器，用于高度受损的语音，用于300-400个单词的小集合。这是用于有语音障碍的人。但不能是通用的，因为每个人都会有一个独特的单词语音输入，这取决于他们的损伤类型。

想知道是否有任何ML引擎允许这样的训练。如果没有，最好的方法是什么。

感谢

大多数语音识别引擎都支持训练(wav2letter、deeptspeech、espnet、kaldi等(，您只需要输入数据即可。唯一的问题是，您需要大量数据来进行可靠的训练(每个单词有1000个样本(。您可以查看Google命令数据集，了解如何从头开始训练。

由于训练数据集对于您的案例来说非常小，并且只由几个样本组成，因此您可能可以从现有的预训练模型开始，并在样本上对其进行微调，以获得最佳精度。你需要关注"；很少有短期学习"；设置。

您可能可以查看wav2vec 2.0预训练模型，它应该对此类学习有效。您可以在这里找到用于微调和推断的示例和命令。

您也可以尝试在NVIDIA NEMO的谷歌命令中微调Jauser模型。它可能会稍微不那么有效，但仍然可以工作，并且应该更容易设置。

我强烈建议观看youtube原创系列"AI时代s第一季第二集。

基本上，谷歌已经为那些无法用被刺穿的声音形成正常单词的人做了这件事。它非常有趣，并讲述了他们是如何做到这一点的，以及如何使用ML技术做到这一点将。

在此处输入链接描述

相关内容