我想使用一些关于麻疹/MMR疫苗的推文来了解人们对疫苗接种的看法如何随着时间的推移而变化。 我计划从我目前拥有的数据语料库创建训练集(除非有人建议我可以在哪里获得类似的数据)。
我想将推文分类为:支持疫苗、反对疫苗或两者都不是(这些将是关于疫情的事实推文)。
所以问题是:多大才算足够大? 我想避免过度拟合的问题(所以我会做一个测试训练拆分),但随着我包含越来越多的推文,需要学习的特征数量急剧增加。
我在想 1000 条推文(每条推文 333 条)。 这里感谢任何意见,如果您可以推荐一些资源,那也很棒。
雄心勃勃,我什至会考虑每班 1000 条推文,用于在相当低的推文上进行 3 向拆分。在可行的时间内标记尽可能多的标签。
此外,可能值得采用级联方法(尤其是数据如此之少),即标记一个集合vaccine
vs non-vaccine
,并且在vaccine
子集中,您将有一个pro
与anti
集合。
根据我的经验,试图模拟一个包罗万象的"中立"类,其中包含所有没有明确"赞成"或"反对"的内容是相当困难的,因为有太多的噪音。特别是对于像朴素贝叶斯这样的简单模型,我发现级联方法运行良好。