谷歌/YouTube自动语音识别生成字幕,而不标记其声音。
当你有一个演讲时,只有一个声音,但当人们正在进行对话,或者不止一个人担任STT软件的谈话负责人时。他们可以标记这一点,因为它应该能够检测声音的不同音调和音色,作为从音频中频谱提取或找出音素的一部分。这一方面将有助于将每个人的输入分成新的句子和段落。
请注意,我不需要识别特定的演讲者/人员。我只需要注意不同的";声音";参与谈话。
我已经研究了围绕他们使用的任何STT(google.cloud.speech.v1
(的Java包装器,但我看不到这样的功能,我认为这应该是可能的。
有什么想法他们为什么不这么做吗?或者,如何做到这一点?,或者他们使用的STT软件,如果可以以某种方式进行配置?
您可以使用发言人/个人日记。语音转文本可以识别同一音频片段中的多个语音。您需要包含参数enableSpeakerDiarization
和diarizationSpeakerCount
。你需要将enableSpeakerDiarization
设置为True,并在当前音频的diarizationSpeakerCount
参数中指定扬声器/人数通过设置请求的CCD_ 6参数来剪辑。提高转录效果。语音到文本使用默认值值(如果未提供diarizationSpeakerCount
的值(。
您可以在Python中看到这个例子:
diarization_config = speech.SpeakerDiarizationConfig(
enable_speaker_diarization=True,
min_speaker_count=2,
max_speaker_count=10,
)
您可以看到一个完整的示例代码。