TensorFlow声音识别

我正在制作我自己版本的TensorFlow音频识别示例，以识别一些声音效果，而不是语音。我在训练我的声音识别模型时遇到了以下错误：

2019-09-11 19:16:38.221677:Etensorflow/core/kernels/mfcc_mel_filterbank.cc:153]缺少5个波段在mel频率设计中从0开始。可能频道太多或频谱中没有足够的频率分辨率。(输入_长度：257input_sample_rate:44100 output_channel_count:40lower_frequency_limit:20 upper_frequence_limit:4000

你能解释一下这意味着什么，以及我如何解决这个问题吗？我的音频剪辑都在1秒左右，44.1khz，是立体声的。

非常感谢！

问题是该示例期望音频文件的采样率为16000khz，而我提供的是44100khz文件。

我通过添加以下标志来解决问题：

--sample_rate=44100

相关内容

最新更新

热门标签：