我有来自GitHub的Coqui STT yesno模型,这是一个超紧凑的语音识别模型,只识别两个词:yes和no。
我有yesno.pbmm
和yesno.scorer
文件。
我也有一个tarballcoqui-yesno-checkpoints.tar.gz
包含以下文件:
ls -l coqui-yesno-checkpoints/
total 7356
-rw-r--r-- 1 jeremiah jeremiah 12 Jul 27 00:00 alphabet.txt
-rw-r--r-- 1 jeremiah jeremiah 1066076 Jul 26 23:59 best_dev-1909.data-00000-of-00001
-rw-r--r-- 1 jeremiah jeremiah 1377 Jul 26 23:59 best_dev-1909.index
-rw-r--r-- 1 jeremiah jeremiah 4476795 Jul 26 23:59 best_dev-1909.meta
-rw-r--r-- 1 jeremiah jeremiah 83 Jul 27 00:00 best_dev_checkpoint
-rw-r--r-- 1 jeremiah jeremiah 3861 Jul 27 00:02 flags.txt
-rw-r--r-- 1 jeremiah jeremiah 1368905 Jul 27 00:05 yesno-64dims.logs
-rw-r--r-- 1 jeremiah jeremiah 594622 Jul 27 00:05 yesno-64dims.logs.lm-optimizer
如何将此模型转换为.tflite
文件,以便在嵌入式设备上与Coqui一起使用?
寻找可以轻松编写脚本的命令行解决方案。
Coqui STT是从Mozilla的DeepSpeech派生出来的。我和Coqui的创始人之一Josh Meyer一起为DeepSpeech编写了剧本。Coqui STT训练文档不包括导出模型到tflite
,所以我建议从DeepSpeech文档开始-因为语法通常是可互换的。
也就是说,您需要从Coqui运行train.py
,指定您拥有的检查点,并传递--export_tflite
标志。这将从检查点创建一个tflite
模型。默认情况下,DeepSpeech将导出protobuf
(.pb
)文件,但我不知道Coqui的默认导出格式是什么。
在猜测,这看起来像:
python3 train.py
--train_files [location of your train csv]
--dev_files [location of your dev csv]
--test_files [location of your test csv]
--checkpoint_dir [location of your checkpoints]
--export_dir [where you want your model exported to]
--export_tflite
希望这对你有帮助——我很想知道你是怎么做的。