如何使用Sphinx从波浪文件中获取MEL系数

我需要一个基于java的特征提取库，并找到了Sphinx，但不知道如何使用。基本上，我需要将wav文件转换为MEL系数。有一次我在Matlab中完成了这项工作，但由于我对Java不太熟悉，我无法掌握如何使用他们的代码和提取功能。

顺便说一句，如果你知道另一个能够快速做到这一点的开源库，那将是非常有帮助的。

更新：由于我将在Android上使用它，我发现使用PocketSphinx可能是一个更好的主意。（我试着在下载他们的演示应用程序，但它没有在我的设备上运行（Nexus 5），它试图打开一个活动，但立即关闭。）我也遵循了这些步骤，但还没有收获。

如果有人能帮我弄清楚如何设置，那就太好了。我需要知道：1-应使用哪些模块，2-我如何将该库用于我自己的项目？3-如何设置库：应该使用哪些函数以及如何使用。

提前谢谢。

是否有使用的分步指南

当然，可以使用sphinx4计算MFCC特征。但不要说会很快。sphinx4中有一个前端的概念，负责处理输入数据。典型的前端如下所示：

  <component name="liveFrontEnd" type="edu.cmu.sphinx.frontend.FrontEnd">
    <propertylist name="pipeline">
      <item>dataSource </item>
      <item>dataBlocker </item>
      <item>speechClassifier </item>
      <item>speechMarker </item>
      <item>nonSpeechDataFilter </item>
      <item>preemphasizer </item>
      <item>windower </item>
      <item>fft </item>
      <item>autoCepstrum </item>
      <item>liveCMN </item>
      <item>featureExtraction </item>
      <item>featureTransform </item>
    </propertylist>
  </component>

前端的每个元素都从上一个元素读取数据，以某种方式进行处理，然后传递给下一个元素。这里CCD_ 1接受原始音频输入并且CCD_ 2输出MFCC系数。其他一切都与语音识别器的特定设置有关。现在，如果您想使用sphinx4来计算MFCC，您应该自己设置类似的前端，分别实例化和调优每个组件，或者可以使用ConfigurationManager编写XML配置并实例化前端。

相关内容

最新更新

热门标签：