为什么这个DeepSpeech python程序的结果与我从命令行界面获得的结果不同



我正在学习Mozilla的DeepSpeech语音到文本引擎。命令行接口正常工作时我没有遇到任何问题,但Python接口的行为似乎有所不同。当我运行时:

deepspeech --model models/output_graph.pb --alphabet models/alphabet.txt --audio testFile3.wav

在用sox生成的PCM,16位,单声道48000 Hz.wav文件上,我得到以下内容:

test test apple benana

减去"benana",当我指的是"香蕉"时,它似乎工作得很好,以及我测试过的其他文件。当我尝试使用本教程中的以下代码时,问题就来了:

import deepspeech
import scipy.io.wavfile as wav
import sys
ds=deepspeech.Model(sys.argv[1],26,9,sys.argv[2],500)
fs,audio=wav.read(sys.argv[3])
processed_data=ds.stt(audio,fs)
print(processed_data)

我用以下命令运行代码:

python3 -Bi test.py models/output_graph.pb models/alphabet.txt testFile3.wav

根据具体的文件,我会得到不同的四个字符的响应。我从这个特定文件中得到的响应是'hahm',但'hmhm'' eo'也是常见的。更改模型的参数(25、9和500(似乎不会更改输出。

只需包含trielm.binary文件,然后重试。

from deepspeech import Model
import scipy.io.wavfile
BEAM_WIDTH = 500
LM_WEIGHT = 1.50
VALID_WORD_COUNT_WEIGHT = 2.25
N_FEATURES = 26
N_CONTEXT = 9
MODEL_FILE = 'output_graph.pbmm'
ALPHABET_FILE = 'alphabet.txt'
LANGUAGE_MODEL =  'lm.binary'
TRIE_FILE =  'trie'
ds = Model(MODEL_FILE, N_FEATURES, N_CONTEXT, ALPHABET_FILE, BEAM_WIDTH)
ds.enableDecoderWithLM(ALPHABET_FILE, LANGUAGE_MODEL, TRIE_FILE, LM_WEIGHT, 
VALID_WORD_COUNT_WEIGHT)
def process(path):
fs, audio = scipy.io.wavfile.read(path)
processed_data = ds.stt(audio, fs)
return processed_data   
process('sample.wav')

这可能会产生同样的反应。。使用相同的音频文件进行推断和验证。。音频文件应为16 bit 16000 hz and mono录制。。

您应该将其转换为16000 Hz,大多数与奇怪输出有关的问题都属于不正确的音频格式。加载语言模型也可以提高WER。

最新更新