具有精确时间戳的语音识别?

Hy社区，

我使用过Google的txt到语音API。

当我想对 wav 音频文件(从视频中提取(进行编码时，某些单词的时间戳不是很精确。(根据谷歌的分辨率是 0,1 秒 - 但就我而言，有时它更弱/延迟(。

我想我可以通过降低音频文件的速度来尝试解决方法，但它或多或少是相同的结果。

有人知道一些用于语音识别的精确API，或者有一些提示可以更好地准备音频文件？

我想一个一个地确定，包括确切的时间戳。

多谢！

现代语音识别算法以对齐准确性换取解码速度，因此Google的识别器可能不会分配非常准确的时间戳。

使用像 Kaldi 这样的开源识别器可以更准确地对齐，请参阅 https://github.com/lowerquality/gentle 或类似内容。不过，您必须重新调整Google结果才能获得正确的时间戳。

相关内容