我们正在尝试使用(除其他外(Microsoft语音转文本(特别是使用 C# API(转录视频材料。我们从Microsoft得到的结果通常包含大量的"感叹词"/"嗡嗡声"(不确定这里的正确术语(,例如"嗯"、"嗯"等,而其他提供者似乎会自动过滤掉这些。在某些情况下,将这些内容包含在结果中可能有意义,但在其他设置中,如果有一种方法可以将语音识别器配置为排除它们,那就太好了。有没有办法做到这一点?
我们的后端引擎具有此功能。 但是,它目前没有公开记录,我不确定您将如何将此选择从客户端发送到服务。目前,它是某些端点的默认设置,但不是其他端点的默认设置("互联网搜索"与"听写"并列(。
我将不得不与我们的一位服务工程师交谈,看看是否有可能从客户端动态更改此设置,并以更好的响应回复您。
谢谢
布莱恩。
---更新---
我与我们的一位服务工程师进行了交谈,该功能称为TrueText格式。 我通过我们的测试和文档进行了一些挖掘,它实际上在这里公开记录。
https://learn.microsoft.com/en-us/dotnet/api/microsoft.cognitiveservices.speech.propertyid?view=azure-dotnet
https://learn.microsoft.com/en-us/dotnet/api/microsoft.cognitiveservices.speech.speechconfig?view=azure-dotnet
如何在 SpeechConfig 对象上调用/设置此功能的示例如下所示...
var trueText = "TrueText";
myDefaultConfig.SetProperty(PropertyId.SpeechServiceResponse_PostProcessingOption, trueText);
文档目前没有显示其他状态,我认为是"正常"而不是"TrueText"。 本周我将尝试抽出时间自己尝试一下,并改进此属性 ID 的文档。