具有精确时间戳的语音识别?



Hy社区,

我使用过Google的txt到语音API。

当我想对 wav 音频文件(从视频中提取(进行编码时,某些单词的时间戳不是很精确。(根据谷歌的分辨率是 0,1 秒 - 但就我而言,有时它更弱/延迟(。

我想我可以通过降低音频文件的速度来尝试解决方法,但它或多或少是相同的结果。

有人知道一些用于语音识别的精确API,或者有一些提示可以更好地准备音频文件?

我想一个一个地确定,包括确切的时间戳。

多谢!

现代语音识别算法以对齐准确性换取解码速度,因此Google的识别器可能不会分配非常准确的时间戳。

使用像 Kaldi 这样的开源识别器可以更准确地对齐,请参阅 https://github.com/lowerquality/gentle 或类似内容。不过,您必须重新调整Google结果才能获得正确的时间戳。

最新更新