在有演讲的书中搜索

我正在尝试构建一个程序，以查找书中的哪一页/哪一句话是通过麦克风读取的。我有这本书的正文和音频内容。用户将从随机页面开始阅读，程序应该与用户同步，并显示正在阅读的书籍部分。这似乎是一个无用的程序，但请耐心等待

类似于shazam程序的方法可行吗？我不确定这些算法对语音的有效性。此外，说话者也会有所不同，可能有口音和不同的阅读速度。

另一种方法是将语音转换为文本并在书中搜索文本。问题是，这本书的语言是一种罕见的语言，没有可用的语言模型。此外，该脚本不使用拉丁字符，这使得编程变得困难（至少对我来说）。

有任何人可以推荐的解决方案吗？从音频文件中提取特征并与"实时"提取的特征（从麦克风中）进行比较会奏效吗？哪些功能？

我可以从什么实现/代码开始？任何语言都可以，但更喜欢C.

您需要使用语音识别器。

您可以将CMUSphinx用于上述任务。

相关内容