在iOS上从音频流(音乐)中获取Hz频率值的最佳方法是什么?苹果提供的最好、最简单的框架是什么。提前谢谢。
以下是我在iOS中使用Accelerate Framework执行FFT的一些代码,这使它非常快速。
//keep all internal stuff inside this struct
typedef struct FFTHelperRef {
FFTSetup fftSetup; // Accelerate opaque type that contains setup information for a given FFT transform.
COMPLEX_SPLIT complexA; // Accelerate type for complex number
Float32 *outFFTData; // Your fft output data
Float32 *invertedCheckData; // This thing is to verify correctness of output. Compare it with input.
} FFTHelperRef;
//首先,用这个函数初始化你的FFTHelperRef。
FFTHelperRef * FFTHelperCreate(long numberOfSamples) {
FFTHelperRef *helperRef = (FFTHelperRef*) malloc(sizeof(FFTHelperRef));
vDSP_Length log2n = log2f(numberOfSamples);
helperRef->fftSetup = vDSP_create_fftsetup(log2n, FFT_RADIX2);
int nOver2 = numberOfSamples/2;
helperRef->complexA.realp = (Float32*) malloc(nOver2*sizeof(Float32) );
helperRef->complexA.imagp = (Float32*) malloc(nOver2*sizeof(Float32) );
helperRef->outFFTData = (Float32 *) malloc(nOver2*sizeof(Float32) );
memset(helperRef->outFFTData, 0, nOver2*sizeof(Float32) );
helperRef->invertedCheckData = (Float32*) malloc(numberOfSamples*sizeof(Float32) );
return helperRef;
}
//在此处传递初始化的FFTHelperRef、数据和数据大小。返回numSamples/2大小的FFT数据。
Float32 * computeFFT(FFTHelperRef *fftHelperRef, Float32 *timeDomainData, long numSamples) {
vDSP_Length log2n = log2f(numSamples);
Float32 mFFTNormFactor = 1.0/(2*numSamples);
//Convert float array of reals samples to COMPLEX_SPLIT array A
vDSP_ctoz((COMPLEX*)timeDomainData, 2, &(fftHelperRef->complexA), 1, numSamples/2);
//Perform FFT using fftSetup and A
//Results are returned in A
vDSP_fft_zrip(fftHelperRef->fftSetup, &(fftHelperRef->complexA), 1, log2n, FFT_FORWARD);
//scale fft
vDSP_vsmul(fftHelperRef->complexA.realp, 1, &mFFTNormFactor, fftHelperRef->complexA.realp, 1, numSamples/2);
vDSP_vsmul(fftHelperRef->complexA.imagp, 1, &mFFTNormFactor, fftHelperRef->complexA.imagp, 1, numSamples/2);
vDSP_zvmags(&(fftHelperRef->complexA), 1, fftHelperRef->outFFTData, 1, numSamples/2);
//to check everything =============================
vDSP_fft_zrip(fftHelperRef->fftSetup, &(fftHelperRef->complexA), 1, log2n, FFT_INVERSE);
vDSP_ztoc( &(fftHelperRef->complexA), 1, (COMPLEX *) fftHelperRef->invertedCheckData , 2, numSamples/2);
//=================================================
return fftHelperRef->outFFTData;
}
这样使用:
初始化:FFTHelperCreate(TimeDomainDataLenght)
传递Float32时域数据,返回时获取频域数据:Float32*fftData=computeFFT(fftHelper,buffer,frameSize)
现在有了一个数组,其中索引=频率,值=幅度(平方幅度?)。根据奈奎斯特定理,你在该阵列中的最大可能频率是你采样率的一半。也就是说,如果您的采样率=44100,您可以编码的最大频率是22050Hz。
因此,找到采样率的奈奎斯特最大频率:const Float32奈奎斯特MaxFreq=sample_rate/2.0
查找Hz很容易:Float32hz=((Float32)someIndex/(Floal32)fftDataSize)*NyquistMaxFreq(fftDataSize=frameSize/2.0)
这对我很有效。如果我在Audacity中生成特定的频率并播放它——这段代码检测到正确的频率(最强的频率,你还需要在fftData中找到max才能做到这一点)。
(大约1-2%仍然有一点不匹配。不确定为什么会发生这种情况。如果有人能解释我为什么——那将不胜感激。)
编辑:
发生这种不匹配是因为我用于FFT的片段太小。使用较大的时域数据块(16384帧)解决了这个问题。这个问题解释了它:无法在iphone 上获得正确的频率值
编辑:以下是示例项目:https://github.com/krafter/DetectingAudioFrequency
Apple没有提供频率或音调估计的框架。然而,iOS Accelerate框架确实包括FFT和自相关的例程,这些例程可以用作更复杂的频率和音调识别或估计算法的组件。
除了可能在几乎零噪声中使用单个长连续恒定频率的纯正弦音调之外,不存在既简单又最佳的方法,其中长窗口FFT的插值幅度峰值可能是合适的。对于语音和音乐,这种简单的方法通常根本不起作用。但是,搜索基音检测或估计方法会发现许多关于更合适算法的研究论文。