我正在Python中执行分类任务,将不同乐器的音频文件分类为各自的类,在我的例子中,有4个类,分别是铜管,弦乐,打击乐和木管乐器。我使用 SVM 算法作为分类器。我的代码看起来有点像这样(我不更改分类器的任何参数(:
#X is feature matrix, y is class vector
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
#SVM Classifier
svm = SVC()
svm.fit(X_train,y_train)
svm_pred = svm.predict(X_test)
print(metrics.classification_report(y_test,svm_pred)
当我尝试运行此代码时,分类器出现问题。错误代码如下所示:
precision recall f1-score support
Brass 1.00 0.21 0.34 72
Percussion 0.38 1.00 0.55 279
String 1.00 0.15 0.26 276
Woodwind 0.00 0.00 0.00 156
avg / total 0.58 0.43 0.32 783
C:UsersAnaconda3libsite-packagessklearnmetricsclassification.py:1135: UndefinedMetricWarning: Precision and F-score are ill-defined and being set to 0.0 in labels with no predicted samples.
当我从 SVM 分类器(svm_pred(检查预测的标签时,分类器没有预测木管乐类
>>> set(svm_pred)
{'Brass','String','Percussion'}
我每节课的样本数量是这样的:铜管 = 200 个样本,木管乐器 = 500 个样本,打击乐 = 900 个样本,弦乐 = 800 个样本,所以它有点不平衡
我的问题是,SVM 分类器是否有可能像我上面的情况那样在分类器的输出中根本不预测类?
另一个问题可能是由于这样一个事实,即如果在拆分数据集时不分层,则可能是某些折叠根本不包含一个类,而其他折叠则包含。 尝试使用选项 stratify=y 来解决问题:)
如果 Woodwind 在训练集中的表现与在测试集中一样好,我的猜测是你的模型完全关闭,因此无法预测这个类。 尝试使用 sklearns scale(( 缩放任何数值特征
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.scale.html
以及 SVM 分类器的不同内核选项
http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html