我需要一个基于java的特征提取库,并找到了Sphinx,但不知道如何使用。基本上,我需要将wav文件转换为MEL系数。有一次我在Matlab中完成了这项工作,但由于我对Java不太熟悉,我无法掌握如何使用他们的代码和提取功能。
顺便说一句,如果你知道另一个能够快速做到这一点的开源库,那将是非常有帮助的。
更新:由于我将在Android上使用它,我发现使用PocketSphinx可能是一个更好的主意。(我试着在下载他们的演示应用程序,但它没有在我的设备上运行(Nexus 5),它试图打开一个活动,但立即关闭。)我也遵循了这些步骤,但还没有收获。
如果有人能帮我弄清楚如何设置,那就太好了。我需要知道:1-应使用哪些模块,2-我如何将该库用于我自己的项目?3-如何设置库:应该使用哪些函数以及如何使用。
提前谢谢。
是否有使用的分步指南
当然,可以使用sphinx4计算MFCC特征。但不要说会很快。sphinx4中有一个前端的概念,负责处理输入数据。典型的前端如下所示:
<component name="liveFrontEnd" type="edu.cmu.sphinx.frontend.FrontEnd">
<propertylist name="pipeline">
<item>dataSource </item>
<item>dataBlocker </item>
<item>speechClassifier </item>
<item>speechMarker </item>
<item>nonSpeechDataFilter </item>
<item>preemphasizer </item>
<item>windower </item>
<item>fft </item>
<item>autoCepstrum </item>
<item>liveCMN </item>
<item>featureExtraction </item>
<item>featureTransform </item>
</propertylist>
</component>
前端的每个元素都从上一个元素读取数据,以某种方式进行处理,然后传递给下一个元素。这里CCD_ 1接受原始音频输入并且CCD_ 2输出MFCC系数。其他一切都与语音识别器的特定设置有关。现在,如果您想使用sphinx4来计算MFCC,您应该自己设置类似的前端,分别实例化和调优每个组件,或者可以使用ConfigurationManager编写XML配置并实例化前端。