是否有规则来确定使用海量数据集进行情绪分析的字典大小



我将对小说进行情感分析。我将处理大约300本350页的书。我可以通过忽略不太常用的单词来限制字典大小吗?如果是这样,定义大小的规则是什么?

我不相信有任何这样的"规则"。如果你打算使用深度学习,我认为唯一的限制因素是,由于记忆/时间限制,你能用多少个单词进行训练。但是门槛您可以通过限制为最常见单词的子集来获得接近最佳的准确性。我认为如果您正在处理一种语言,大约 50000 个单词将是一个合理的开始。如果您需要更好的性能,您可以从那里扩展词汇量。

最新更新