文档聚类/分类中的功能



这听起来可能很天真,但我只是想确保,在使用机器学习术语时,文档聚类中的功能是从文档中选择的单词,如果某些单词在词干后被丢弃或作为停止词。

我正在尝试使用LibSvm库,它说对于不同类型的{no_of_instances,no_of_feature}有不同的方法。

就像如果no_of_instances比no_of_features低得多,线性内核就可以了。如果两者都很大,线性内核就会很快。然而,如果no_of_features较小,则非线性内核更好。

因此,对于我的文档聚类/分类,我有少量的文档,比如100个,每个文档可能有2000个左右的单词。因此,根据我认为功能是什么,我分为小的no_of_instances和大的no_of _features类别

我想使用tf idf作为文档。

那么no_of_features是我从tf-idf得到的向量的大小吗?

您在这里谈论的只是可能性之一,实际上是定义文档特性的最琐碎的方法。在机器学习中,术语特征是从输入空间(在这个特定的例子中,从文档空间)到某个抽象空间的任何映射,这适用于特定的机器学习模型。大多数ML模型(如神经网络、支持向量机等)都在数字向量上工作,因此特征必须是从文档到(恒定大小)数字向量的映射。这就是为什么有时会选择owrds的包的表示,其中我们有一个单词的计数向量作为文档表示。这种限制可以通过使用特定的模型来克服,例如Naive Bayes(或SVM的自定义内核,它使它们能够处理非数字数据),只要我们能够定义有针对性的条件概率,它就可以处理任何对象——在这里,最基本的方法是将包含或不包含特定单词的文档视为"特征"。一般来说,这不是唯一的可能性,有几十种方法使用统计特征、语义特征(基于一些本体,如wordnet)等。

总之,这只是机器学习模型中最简单的文档表示之一。好的开始,好的理解基础,但远远不是一个"功能定义"。

编辑

no_of_features是用于文档表示的向量的大小,所以若使用tf-idf,则结果向量的大小为no_of_featuers

最新更新