小贝子编程

特征向量:计算训练集与测试集的权重

我正在使用支持向量机进行文本分类，但基本上我对测试集的特征向量计算感到困惑。

对于训练特征向量，我对每个训练数据取TF-IDF向量，并使用TF-IDF值构造一个特征矩阵[docs x terms]。

但是如何计算测试集的特征向量呢?我应该只使用训练集中的TF-IDF值来计算它吗?

例如:在特定单词"apple"的训练集中，doc频率为5。对于测试集，我应该使用值5表示"苹果"吗?还是基于测试集重新计算TF-IDF ??或者更确切地说，我在计算特征向量时走错了路吗?

提前感谢!

您应该使用训练集计算每个术语的IDF(逆文档频率)。然后，您应该对测试集中的文档使用相同的IDF。另一方面，TF取决于您想要分类的具体文档，因此对于测试集和训练集中的不同文档，它将是不同的。

相关内容