SVM 线性核中 TF-IDF 和 TF 的区别

因为 IDF 是一个常数。一个维度中的所有值乘以一个常数。

在 SVM 线性内核中，结果会有所不同吗？

你最初的问题并没有意义。你混淆了两个不同的世界：1） TF/IDF：文本表示功能2） SVM - 线性内核：SVM 最简单的方法（实际上用于文本）。

TF和TF/IDF的区别在于是否使用单词的语料库频率。到目前为止，TF/IDF 是更好的选择，独立于分类器。

仅使用 TF，我们并不真正关心一个词是否常见。因此，诸如文章之类的常用词即使没有提供真实信息，也会获得很大的权重。

在

TF/IDF中，一个单词在语料库中的频率越高，它收到的权重就越小。因此，像文章这样的常用词获得较小的权重，但稀有单词，假设它携带更多信息，接收较大的权重。

注

：注：在上面，"文章"被用作示例，它们通常应该在预处理步骤中删除。

相关内容