如何在语音识别中生成时间戳?



我正在做一个语音识别系统项目。我使用深度神经网络进行语音识别。但我还需要给定演讲中出现的单词的开始和结束时间。你能建议我或指导我资源来解决语音识别中的时间戳生成问题吗?我知道亚马逊转录服务也会生成时间戳,但我无法获得有关此的文件。

如果你有兴趣尝试Microsoft的语音服务 (https://aka.ms/speech/sdk(,我们也支持字级时间戳。您可以从我们的快速入门示例之一(以多种编程语言提供(开始,还可以再输入几行代码来获取字级计时信息。

基本上,在尝试默认麦克风快速入门或文件快速入门后,可以添加几行代码来请求单词级时间戳。您将添加另一行代码来检索服务提供的 json 响应(其中包含字级计时信息(。

例如,在 C# 中,您将对SpeechConfig对象执行以下操作:

config.OutputFormat = OutputFormat.Detailed;
config.RequestWordLevelTimestamps = true;

收到SpeechRecognitionResult对象后,您将执行以下操作:

var json = result.Properties.GetProperty(PropertyId.SpeechServiceResponse_JsonResult);
Console.WriteLine(json);

如果您使用的是另一种受支持的编程语言(C++,Java,JavaScript,Objective-C,Swift,Python等(,则代码会略有不同。

祝你好运。

Rob Chambers,Microsoft
建筑师和工程经理

最新更新