使用WEKA对标记的推文进行分类

我正在考虑使用情感分析和WEKA将推文分类为基于预先标记的数据集的三个类之一的推文。

数据集的形式有6个属性：

count(num), hate_speech(num), offensive_language(num), neither(num), class(num), tweet(string)

其中 class 和 tweet 是有趣的属性。类属性是数值(0、1或2(，该推文是包含Tweet的原始文本的字符串。有谁知道如何做到这一点？在WEKA中使用Explorer时，可以制作许多配置，我不知道从哪里开始。作为第一步，我想使用幼稚的贝叶斯或SVM对推文进行分类。

基本上，使用StringTowordVector滤波器将Tweet文本拆分为单词，然后使用NaiveBayesMultInomial滤波器进行分类。

可选的是，您还可以使用WEKA的过滤器对文本(全部词组，词干等(进行预处理。(也许在将数据加载到WEKA之前这样做 - 可能会为您节省很多点击(。还将"类"列放在数据文件的最后一个位置。

相关内容