如何在语音识别中生成时间戳?

我正在做一个语音识别系统项目。我使用深度神经网络进行语音识别。但我还需要给定演讲中出现的单词的开始和结束时间。你能建议我或指导我资源来解决语音识别中的时间戳生成问题吗？我知道亚马逊转录服务也会生成时间戳，但我无法获得有关此的文件。

如果你有兴趣尝试Microsoft的语音服务 (https://aka.ms/speech/sdk(，我们也支持字级时间戳。您可以从我们的快速入门示例之一(以多种编程语言提供(开始，还可以再输入几行代码来获取字级计时信息。

基本上，在尝试默认麦克风快速入门或文件快速入门后，可以添加几行代码来请求单词级时间戳。您将添加另一行代码来检索服务提供的 json 响应(其中包含字级计时信息(。

例如，在 C# 中，您将对SpeechConfig对象执行以下操作：

config.OutputFormat = OutputFormat.Detailed;
config.RequestWordLevelTimestamps = true;

收到SpeechRecognitionResult对象后，您将执行以下操作：

var json = result.Properties.GetProperty(PropertyId.SpeechServiceResponse_JsonResult);
Console.WriteLine(json);

如果您使用的是另一种受支持的编程语言(C++，Java，JavaScript，Objective-C，Swift，Python等(，则代码会略有不同。

祝你好运。

Rob Chambers，Microsoft
建筑师和工程经理

相关内容