小贝子编程

机器学习- SKLearn交叉验证:

本文关键字：验证 SKLearn 机器学习 machine-learning classification scikit-learn document-classification
更新时间 : 2023-08-20
英文 : machine learning - SKLearn Cross-validation:

我正在进行文本分类，并将处理未在训练数据中捕获的单词，这意味着该单词应被视为未知。

有没有人知道scikit的交叉验证是否会将一个特定的单词视为不可见的，如果它不存在于训练数据中?

还是scikit会把所有的词都当作特征，即使它不在训练集中?

如果你在包含特征提取器(例如CountVectorizer或TfidfVectorizer)和分类器的管道上进行交叉验证，那么一切都将自动开箱工作:仅在

训练测试集合中出现的特征将被忽略(不映射到向量表示中的维度)。

关于如何使用vocabulary_属性将特征名称映射到维度的更多细节，请参阅文本特征提取文档。

还有一个示例，展示了如何交叉验证由特征提取组件和分类器组成的管道。

Edit: fixed train/test typo

编辑2:修复断开的链接到示例

相关内容