使用WEKA对标记的推文进行分类



我正在考虑使用情感分析和WEKA将推文分类为基于预先标记的数据集的三个类之一的推文。

数据集的形式有6个属性:

count(num), hate_speech(num), offensive_language(num), neither(num), class(num), tweet(string)

其中 class tweet 是有趣的属性。类属性是数值(0、1或2(,该推文是包含Tweet的原始文本的字符串。有谁知道如何做到这一点?在WEKA中使用Explorer时,可以制作许多配置,我不知道从哪里开始。作为第一步,我想使用幼稚的贝叶斯或SVM对推文进行分类。

基本上,使用StringTowordVector滤波器将Tweet文本拆分为单词,然后使用NaiveBayesMultInomial滤波器进行分类。

可选的是,您还可以使用WEKA的过滤器对文本(全部词组,词干等(进行预处理。(也许在将数据加载到WEKA之前这样做 - 可能会为您节省很多点击(。还将"类"列放在数据文件的最后一个位置。

最新更新