为什么weka中的分类模型将所有实例预测为一个类

我已经使用weka构建了一个分类模型。我有两个类，即{spam，非spam}。应用stringtoworvector过滤器后，我得到19000条记录的10000个属性。然后我用线性库建立模型，给我的f分如下:垃圾邮件- 94%非垃圾邮件- 98%

当我使用相同的模型来预测新的实例时，它预测所有的实例都是垃圾邮件。此外，当我尝试使用与训练集相同的测试集时，它也预测所有这些都是垃圾邮件。我绞尽脑汁想找出问题所在。

我也经常出错。然后我观看这个视频来提醒自己是如何完成的:https://www.youtube.com/watch?v=Tggs3Bd3ojQ Weka开发人员/架构师之一Witten教授展示了如何在训练数据集和测试集上正确使用FilteredClassifier(反过来配置为加载stringtoworvector Filter)。

在weka 3.6, weka 3.7中显示。可能略有不同

ZeroR给了你什么?如果它接近100%，你知道任何分类算法也应该不会太远。

为什么对F-Measure进行优化?只是问。我从来没用过这个，也不太了解。(我将优化"精度"指标，假设您的垃圾邮件比非垃圾邮件多得多)。

相关内容

最新更新

热门标签：