语音识别-如何打破扬声器拨号音频文件



我最近开始使用LIUM工具。对于我的音频文件,我能够获得片段文件。

请帮助我在分割文件的帮助下打破输入音频文件。

下面是我为下面的命令

得到的段文件
D:Jar_files>java -Xmx1024m -jar ./LIUM_SpkDiarization-8.4.1.jar --fInputMask=Amala.wav 
--sOutputMask=gsd.seg  --doCEClustering  GSD

;; cluster S0 [ merge HCLR 2 = S0 in S12 with 1.5410836397413505 ] [ merge HCLR 3 = S0 in S1 with 1.6226113910564284 ] [ score:FS = -33.252216872332376 ] [ score:FT = -33.621459953603306 ] [ score:MS = -33.524596374083096 ] [ score:MT = -34.046138016418915 ] 
GSD 1 0 229 F S U S0
GSD 1 229 443 F S U S0
GSD 1 672 620 F S U S0
GSD 1 1292 1117 F S U S0
GSD 1 2409 1183 F S U S0
GSD 1 3592 501 F S U S0
GSD 1 4093 1026 F S U S0
GSD 1 5119 1410 F S U S0
GSD 1 6529 785 F S U S0
GSD 1 7315 180 F S U S0
GSD 1 7495 193 F S U S0
GSD 1 7701 338 F S U S0
GSD 1 8039 824 F S U S0
GSD 1 8863 1185 F S U S0
GSD 1 10250 647 F S U S0
GSD 1 10897 174 F S U S0
GSD 1 11480 1435 F S U S0
GSD 1 13529 206 F S U S0
GSD 1 13939 1230 F S U S0
GSD 1 16192 618 F S U S0
GSD 1 16810 1022 F S U S0
GSD 1 18240 411 F S U S0
GSD 1 19265 717 F S U S0
GSD 1 19982 718 F S U S0
GSD 1 21518 411 F S U S0
GSD 1 23363 616 F S U S0
GSD 1 24387 1940 F S U S0
GSD 1 26327 595 F S U S0
GSD 1 26922 994 F S U S0
GSD 1 27916 424 F S U S0
GSD 1 28340 1997 F S U S0
GSD 1 30337 961 F S U S0

逐行读取文件,按字分行。第三个字是开始帧(1/100秒),下一列是长度。最后一列是演讲者的id。如果你知道这个块的开始和结束,你就可以剪切相应的音频。你可以在这里找到剪辑音频文件的代码:

切割波浪文件

如果您想使用java以外的编程语言,您也可以在SO上搜索代码来切割文件。

最新更新