TensorFlow声音识别



我正在制作我自己版本的TensorFlow音频识别示例,以识别一些声音效果,而不是语音。我在训练我的声音识别模型时遇到了以下错误:

2019-09-11 19:16:38.221677:Etensorflow/core/kernels/mfcc_mel_filterbank.cc:153]缺少5个波段在mel频率设计中从0开始。可能频道太多或频谱中没有足够的频率分辨率。(输入_长度:257input_sample_rate:44100 output_channel_count:40lower_frequency_limit:20 upper_frequence_limit:4000

你能解释一下这意味着什么,以及我如何解决这个问题吗?我的音频剪辑都在1秒左右,44.1khz,是立体声的。

非常感谢!

问题是该示例期望音频文件的采样率为16000khz,而我提供的是44100khz文件。

我通过添加以下标志来解决问题:

--sample_rate=44100

最新更新