在机器学习模型中使用黄金功能的最佳方法是什么?



假设我有一个分类模型。我的工作是从30个不同的类中预测正确的类。电流精度为70%。

问题是:我必须使用另一个团队的分类结果,该结果准确率为 80%。所以我使用他们的预测标签作为一项功能。我称之为"黄金功能"。假设我的目标是黄金功能>80%的准确率。

这是我目前的方法:

(我正在使用深度学习。我有几个功能,每个功能都有自己的权重。我还为一个"黄金特征"的热向量(1 x 30)创建了一个权重向量,并将所有权重训练在一起。然而,结果似乎并没有提供太多。

我想了想原因,意识到学习向量(30 x n,后跟 n 乘以 30,所以它产生 1 x 30)不会那么有意义。它们只是正数。 (如果我的推理是错误的,请对我大喊大叫!

有没有人遇到过类似的问题?任何建议将不胜感激。 您建议的方法不一定是深度学习方法。

你可以有一个集成建模方法。

下面是它的样子:

feature_1 ---- |         |  
feature_2 ---- | Model 1 | ---- output 1
feature_n ---- |         |
feature_1 ---- |         |  
feature_2 ---- | Model 2 | ---- output 2
feature_n ---- |         |
feature_1 ---- |         |  
feature_2 ---- | Model n | ---- output n
feature_n ---- |         |

现在,你构建一个元模型。一个简单的元模型可能是一个简单的投票分类器(分类器的最大投票获胜,因此所有模型具有相同的投票权重)或逻辑回归(加权投票)。您可以使用神经网络、随机森林或 svm,但它可能是太复杂的模型,因此请考虑根据您的特定问题和数据量使用它。

output_1 ---- |            |  
output_2 ---- | Meta Model | ---- Final Classification
output_n ---- |            |

在您的情况下,"黄金特征"就像输出 1 一样。

看看这篇写得很好的文章以获取更多详细信息:https://blogs.sas.com/content/subconsciousmusings/2017/05/18/stacked-ensemble-models-win-data-science-competitions/

您可以做的另一件事是尝试用第二个模型补充第一个模型。有一个中间预测器,其唯一工作是预测天气,或者不是第一个模型将产生正确的结果。此中间预测变量将采用与原始模型相同的特征。由于这是一个二元分类器,因此您可能会从中获得很高的准确率。然后,如果中间模型的置信度较低,请使用您自己的分类模型而不是原始分类模型。

或者,您可以有两个中间模型,一个用于原始模型,一个用于分类器。然后,取预测的加权和,由两个中间模型的置信度分数加权。

相关内容

最新更新