我正在尝试构建一个程序,以查找书中的哪一页/哪一句话是通过麦克风读取的。我有这本书的正文和音频内容。用户将从随机页面开始阅读,程序应该与用户同步,并显示正在阅读的书籍部分。这似乎是一个无用的程序,但请耐心等待
类似于shazam程序的方法可行吗?我不确定这些算法对语音的有效性。此外,说话者也会有所不同,可能有口音和不同的阅读速度。
另一种方法是将语音转换为文本并在书中搜索文本。问题是,这本书的语言是一种罕见的语言,没有可用的语言模型。此外,该脚本不使用拉丁字符,这使得编程变得困难(至少对我来说)。
有任何人可以推荐的解决方案吗?从音频文件中提取特征并与"实时"提取的特征(从麦克风中)进行比较会奏效吗?哪些功能?
我可以从什么实现/代码开始?任何语言都可以,但更喜欢C.
您需要使用语音识别器。
-
直接从书本文本创建一个语言模型。这将使对书籍阅读的识别非常准确,无论是原始阅读还是用户阅读。
-
使用此语言模型识别书籍并为单词分配时间戳,或者使用更高级的算法执行文本到音频的对齐。
-
使用图书特定语言模型识别用户的语音,并使用识别的文本显示图书中的位置。
您可以将CMUSphinx用于上述任务。