从音频文件中检测语音、角色，甚至可能检测语音中的韵律和不流畅

谷歌/YouTube自动语音识别生成字幕，而不标记其声音。

当你有一个演讲时，只有一个声音，但当人们正在进行对话，或者不止一个人担任STT软件的谈话负责人时。他们可以标记这一点，因为它应该能够检测声音的不同音调和音色，作为从音频中频谱提取或找出音素的一部分。这一方面将有助于将每个人的输入分成新的句子和段落。

请注意，我不需要识别特定的演讲者/人员。我只需要注意不同的"；声音"；参与谈话。

我已经研究了围绕他们使用的任何STT(google.cloud.speech.v1(的Java包装器，但我看不到这样的功能，我认为这应该是可能的。

有什么想法他们为什么不这么做吗？或者，如何做到这一点？，或者他们使用的STT软件，如果可以以某种方式进行配置？

您可以使用发言人/个人日记。语音转文本可以识别同一音频片段中的多个语音。您需要包含参数enableSpeakerDiarization和diarizationSpeakerCount。你需要将enableSpeakerDiarization设置为True，并在当前音频的diarizationSpeakerCount参数中指定扬声器/人数通过设置请求的CCD_ 6参数来剪辑。提高转录效果。语音到文本使用默认值值(如果未提供diarizationSpeakerCount的值(。

您可以在Python中看到这个例子：

diarization_config = speech.SpeakerDiarizationConfig(
enable_speaker_diarization=True,
min_speaker_count=2,
max_speaker_count=10,
)

您可以看到一个完整的示例代码。

相关内容

最新更新

热门标签：