正如标题所说,我在训练数据上使用fit_transform
和CountVectorizer
。然后我只使用tranform
和测试数据…这是否与仅在训练数据上使用fit
而仅在测试数据上使用tranform
相同?
答案是对:
fit_transform
相当于fit
后面跟着transform
,但实现效率更高。看到文档
fit
和fit_transform
都适合你的分类器到你的数据集。然后,您可以使用相同的分类器来转换任何其他数据集(在您的示例中是测试集)。
如果您只在训练数据上使用fit
,而在测试数据上使用transform
,您将无法得到正确的结果。
当对训练数据使用fit_transform
时,意味着机器正在从特征空间的参数中学习,同时也在对训练数据进行变换(缩放)。另一方面,您应该只对测试数据使用transform
,根据从训练数据中学习到的参数对其进行缩放。