机器学习- SKLearn交叉验证:



我正在进行文本分类,并将处理未在训练数据中捕获的单词,这意味着该单词应被视为未知。

有没有人知道scikit的交叉验证是否会将一个特定的单词视为不可见的,如果它不存在于训练数据中?

还是scikit会把所有的词都当作特征,即使它不在训练集中?

如果你在包含特征提取器(例如CountVectorizer或TfidfVectorizer)和分类器的管道上进行交叉验证,那么一切都将自动开箱工作:仅在

训练 测试集合中出现的特征将被忽略(不映射到向量表示中的维度)。

关于如何使用vocabulary_属性将特征名称映射到维度的更多细节,请参阅文本特征提取文档。

还有一个示例,展示了如何交叉验证由特征提取组件和分类器组成的管道。

Edit: fixed train/test typo

编辑2:修复断开的链接到示例

相关内容

  • 没有找到相关文章

最新更新