我已经使用weka构建了一个分类模型。我有两个类,即{spam,非spam}。应用stringtoworvector过滤器后,我得到19000条记录的10000个属性。然后我用线性库建立模型,给我的f分如下:垃圾邮件- 94%非垃圾邮件- 98%
当我使用相同的模型来预测新的实例时,它预测所有的实例都是垃圾邮件。此外,当我尝试使用与训练集相同的测试集时,它也预测所有这些都是垃圾邮件。我绞尽脑汁想找出问题所在。
我也经常出错。然后我观看这个视频来提醒自己是如何完成的:https://www.youtube.com/watch?v=Tggs3Bd3ojQ Weka开发人员/架构师之一Witten教授展示了如何在训练数据集和测试集上正确使用FilteredClassifier(反过来配置为加载stringtoworvector Filter)。
在weka 3.6, weka 3.7中显示。可能略有不同
ZeroR给了你什么?如果它接近100%,你知道任何分类算法也应该不会太远。
为什么对F-Measure进行优化?只是问。我从来没用过这个,也不太了解。(我将优化"精度"指标,假设您的垃圾邮件比非垃圾邮件多得多)。