谁能给我指出一些我用来分类的大型语料库?
但总的来说,我不是指路透社或20个新闻组,我说的是GB大小的语料库,而不是20MB或类似的东西。
我只能找到这个路透社和20个新闻组,这对于我需要的东西来说是很小的。
文本分类评估最常用的数据集是:
- 路透社数据集
- 20新闻组数据集
然而,上面的数据集不符合"大"的要求。以下数据集可能符合您的标准:
-
Commoncrawl您可以通过提取元标签中具有特定关键字的文章来构建一个大型语料库,并应用于文档分类。
-
安然电子邮件数据集你可以在这里做各种不同的分类任务。
-
主题注释安然数据集。
您可以在这里浏览其他公开可用的数据集
除此之外,您可能需要开发自己的语料库。我将在本周末晚些时候发布一个新闻语料库构建器,它将帮助您根据您选择的主题开发自定义语料库
更新:已经创建了上面提到的自定义语料库构建器模块,但忘记链接它了。
从2007年10月到2015年5月的大量Reddit档案