SVM 线性核中 TF-IDF 和 TF 的区别



因为 IDF 是一个常数。一个维度中的所有值乘以一个常数。

在 SVM 线性内核中,结果会有所不同吗?

你最初的问题并没有意义。你混淆了两个不同的世界:1) TF/IDF:文本表示功能2) SVM - 线性内核:SVM 最简单的方法(实际上用于文本)。

TF和TF/IDF的区别在于是否使用单词的语料库频率。到目前为止,TF/IDF 是更好的选择,独立于分类器。

仅使用 TF,我们并不真正关心一个词是否常见。因此,诸如文章之类的常用词即使没有提供真实信息,也会获得很大的权重。

TF/IDF中,一个单词在语料库中的频率越高,它收到的权重就越小。因此,像文章这样的常用词获得较小的权重,但稀有单词,假设它携带更多信息,接收较大的权重。

:注:在上面,"文章"被用作示例,它们通常应该在预处理步骤中删除。

最新更新