文档聚类/分类中的功能

这听起来可能很天真，但我只是想确保，在使用机器学习术语时，文档聚类中的功能是从文档中选择的单词，如果某些单词在词干后被丢弃或作为停止词。

我正在尝试使用LibSvm库，它说对于不同类型的{no_of_instances，no_of_feature}有不同的方法。

就像如果no_of_instances比no_of_features低得多，线性内核就可以了。如果两者都很大，线性内核就会很快。然而，如果no_of_features较小，则非线性内核更好。

因此，对于我的文档聚类/分类，我有少量的文档，比如100个，每个文档可能有2000个左右的单词。因此，根据我认为功能是什么，我分为小的no_of_instances和大的no_of _features类别

我想使用tf idf作为文档。

那么no_of_features是我从tf-idf得到的向量的大小吗？

您在这里谈论的只是可能性之一，实际上是定义文档特性的最琐碎的方法。在机器学习中，术语特征是从输入空间（在这个特定的例子中，从文档空间）到某个抽象空间的任何映射，这适用于特定的机器学习模型。大多数ML模型（如神经网络、支持向量机等）都在数字向量上工作，因此特征必须是从文档到（恒定大小）数字向量的映射。这就是为什么有时会选择owrds的包的表示，其中我们有一个单词的计数向量作为文档表示。这种限制可以通过使用特定的模型来克服，例如Naive Bayes（或SVM的自定义内核，它使它们能够处理非数字数据），只要我们能够定义有针对性的条件概率，它就可以处理任何对象——在这里，最基本的方法是将包含或不包含特定单词的文档视为"特征"。一般来说，这不是唯一的可能性，有几十种方法使用统计特征、语义特征（基于一些本体，如wordnet）等。

总之，这只是机器学习模型中最简单的文档表示之一。好的开始，好的理解基础，但远远不是一个"功能定义"。

编辑

no_of_features是用于文档表示的向量的大小，所以若使用tf-idf，则结果向量的大小为no_of_featuers。

相关内容

最新更新

热门标签：