在Youtube上,我可以下载视频的CC转录本,但转录本不包含标点符号。我怎样才能自动在成绩单上加标点?
这是自然语言处理(NLP(中研究的一个问题,通常被称为标点符号恢复。有一些深度学习解决方案可以实现这一点,但它们并不完美,尽管它们可以取得不错的结果。您可以尝试使用https://github.com/ottokart/punctuator2,这是基于本文的。(你可以在这里试试(。
无法从youtube获取它们,您必须自己生成它们。谷歌提供了一项为任意文本生成标点符号的服务,根据我的个人经验,它比一些竞争对手更准确,所以我会把它贯穿其中。
2023年有多种方法:
- 使用chatGPT。它运行得很好,但由于输入文本的限制,对于长视频(60分钟以上(来说,这是一个相当麻烦的过程。除了处理批次外,您还必须控制每个批次的输出质量,因为它还不是100%一致的
- 使用深层多语言标点预测。它可以恢复英语文本的标点符号,准确率为77%。但它不会固定大写字母
- 使用yt-dlp和Whisper。从Youtube下载mp3并运行Whisper。这个OpenAI的模型可以很好地对文本进行语音转换,并提供带有标点符号的输出。但对于长视频/音频来说,它相当慢(处理60分钟的音频大约需要30分钟(。示例实施
- 使用yt-dlp和whisper.cpp。这可以更快地处理60分钟的音频,只需不到10分钟。我的示例实现
- 使用Shoki.app