我想构建一个使用语音识别来记录所说的脚本,并在说出关键字后将其转换为文本。
我已经看了Uberi的语音识别包,它几乎提供了我所需的一切,在记录所有语音并将其转换为文本方面。
每次触发关键字时,是否有一种方法可以触发与Alexa相似的记录?例如,A人会讲30分钟的经济市场。在演讲中,他提到了诸如"危机","经济衰退"one_answers"市场崩溃"之类的词。
是否可以录制并转换为文本 - 也许一旦触发了关键字后所说的内容的接下来的10秒?
我做的类似的事情。您可能需要考虑使用:
- Snowboy关键字检测库https://snowboy.kitt.ai/docs to检测关键字。您可以有几个关键字。您需要定义首先。
- 当第一个沉默时将句子砍掉,然后将其存储在音频文件中
- 使用先前生成的音频文件作为输入调用翻译服务API(例如Google)。我已经尝试了这个:https://cloud.google.com/speech-to-text/docs/
您可以使用麦克风或音频文件作为雪boy的输入。
希望它有帮助