大型分类文档语料库

谁能给我指出一些我用来分类的大型语料库?

但总的来说，我不是指路透社或20个新闻组，我说的是GB大小的语料库，而不是20MB或类似的东西。

我只能找到这个路透社和20个新闻组，这对于我需要的东西来说是很小的。

文本分类评估最常用的数据集是:

然而，上面的数据集不符合"大"的要求。以下数据集可能符合您的标准:

您可以在这里浏览其他公开可用的数据集

除此之外，您可能需要开发自己的语料库。我将在本周末晚些时候发布一个新闻语料库构建器，它将帮助您根据您选择的主题开发自定义语料库

更新:

已经创建了上面提到的自定义语料库构建器模块，但忘记链接它了。

从2007年10月到2015年5月的大量Reddit档案

相关内容