用于自然语言处理的转录数据集



我一直在网上搜索,发现CNN和NPR等媒体提供了访问他们成绩单的链接。为了获得它们,需要编写一些类似爬行器的东西,这并不那么方便。原因是我试图在我的自然语言处理项目中使用一些电视节目、采访、广播、电影的成绩单作为训练数据。所以我想知道网上是否有免费的收藏或数据库,这样我就可以一次下载所有的收藏或数据,而无需自己编写爬网程序?

我推荐英国国家语料库。我还想提到美国国家语料库,但那里的记录只有电话或面对面的对话——没有新闻、电视节目等。

你还提到了CNN和NPR。这里有1996年作为最不发达国家语料库的文字记录。

最新更新