声音频率检测

从音频文件中检测特定单词的解决方案是什么？

我有很多音频文件（相同的编解码器），每个文件只有大约 15 秒长。（注意：所有音频文件都是同一个人/同一个口音）

例如：

测试1.mp3玩Hello Tom, what are you doing today?

测试2.mp3玩Hello Paul, what are you doing today?

测试3.mp3玩Good morning John - It is lovely weather today

我需要一种方法来检测可爱的天气或每个音频文件中的单词。

我可能有 100 个音频文件说"你今天在做什么

"，其他文件说"你今天在做什么？ - 我只需要知道每个文件的状态/类型是什么。

检查频率位是否存在而不是使用语音识别工具的解决方案是什么。

你本质上是在问"我怎样才能进行通用语音识别"？

解决方案是：

如果您的平台提供开箱即用的语音识别，请使用它。例如，Microsoft Windows就是这样。http://msdn.microsoft.com/en-us/library/hh323805.aspx

如果你的平台没有，那么你需要集成一个第三方语音识别包，比如Lernaut&Hauspie（现在的Nuance）、Dragon等。这可能涉及付钱。

编辑：我已将其标记为文本到语音转换（语音生成）和语音到文本（语音识别）API的副本？，它对"如何进行语音识别"有一个全面的答案。

相关内容