如何知道哪些频谱图帧属于哪些音频样本



我一直在使用这个脚本:

spgram = torchaudio.transforms.Spectrogram(512, hop_length=32)
audio = spgram(audio)

以获得一些立体声音乐音频的声谱图。我原以为得到的声谱图的形状是[2257,audio.shape[1]/32],但事实并非如此。例如,大小为[2199488](sr=24576(的音频剪辑产生大小为[22576241]的声谱图(注意,199488/32=6234(。为什么?以及如何从帧位置转换为采样位置?

参见center参数。

是否在两侧填充waveform,使得第t帧以时间t x hop_length为中心。(默认值:True(

因此,默认情况下,信号用零填充。填充长度可能为(win_length - hop_length(。这最终会使结果延长(win_length - hop_length) / hop_length,在您的情况下为7。

最新更新