如何使用支持向量机使用卡方值进行文本分类



我有一个文本分类问题的正反两种训练文档。我计划为每个文档中的每个特征计算卡方值。有了这个值,我该如何使用SVM进行分类呢?分类的阈值是多少?

卡方值可用于进行特征选择,这可能是预处理步骤。之后,您可以大大减少您的特征词汇表(例如,从1M词汇表中选择最有用的100K个术语)。这一步可能有两个好处:在下一步减小你的模型尺寸;2. 更快的预测时间。缺点:可能影响也可能不影响分类性能。

要继续分类,您仍然需要使用这100K个特征来训练您的模型(例如,使用SVM算法)。学习了模型后,可以使用模型进行分类。

最新更新