我使用Sphinx4执行带有语法的语音识别,但出于另一个目的,我希望保存到用户所说的没有语法的音频文件中。
基本上,用户会说一些话,当它处于静音状态时,会创建一个音频文件,我想知道我是否可以重用Sphinx4系统来执行此操作。如果是,我该怎么做?
很遗憾,目前不支持此功能。您需要实现自己的DataProcessor,该DataProcessor将缓存音频数据并通过API使其可用。如果您只想转储话语,请将WavWriter组件插入到配置文件中的前端管道中:
<item>speechMarker </item>
<item>nonSpeechDataFilter </item>
<item>wavWriter </item>
<item>preemphasizer </item>
<item>windower </item>
.......
如果只使用xml配置文件,则可以修改当前文件。否则,您可以修改edu/cmu/sphinx/api/default.config.xml
中的默认配置文件