声音频率检测



从音频文件中检测特定单词的解决方案是什么?

我有很多音频文件(相同的编解码器),每个文件只有大约 15 秒长。 (注意:所有音频文件都是同一个人/同一个口音)

例如:

测试1.mp3Hello Tom, what are you doing today?

测试2.mp3Hello Paul, what are you doing today?

测试3.mp3Good morning John - It is lovely weather today

我需要一种方法来检测可爱的天气每个音频文件中的单词。

我可能有 100 个音频文件说"你今天在做什么

",其他文件说"你今天在做什么? - 我只需要知道每个文件的状态/类型是什么。

检查频率位是否存在而不是使用语音识别工具的解决方案是什么。

你本质上是在问"我怎样才能进行通用语音识别"?

解决方案是:

如果您的平台提供开箱即用的语音识别,请使用它。例如,Microsoft Windows就是这样。http://msdn.microsoft.com/en-us/library/hh323805.aspx

如果你的平台没有,那么你需要集成一个第三方语音识别包,比如Lernaut&Hauspie(现在的Nuance)、Dragon等。这可能涉及付钱。

编辑:我已将其标记为文本到语音转换(语音生成)和语音到文本(语音识别)API的副本?,它对"如何进行语音识别"有一个全面的答案。

最新更新