如何为监督式机器学习项目构建目标变量

我对机器学习很陌生，经验很少，我做过一些项目。

现在我有一个与保险有关的项目。所以我有关于客户的数据库，我将合并这些数据库以获取有关客户的所有可能信息，我有一个用于索赔的数据库。我需要建立一个模型，根据等级确定客户的风险。

我的问题：我需要构建我的目标变量，根据客户的风险对客户进行排名，依靠索赔。我可以有不同的策略来做到这一点，但我对如何处理以下内容感到困惑： - 在建立聚类等排名之前，我应该做特定类型的分析，还是需要有一个与项目提供者愿景相匹配的强有力的理论假设。 - 如果我使用索赔数据库中的一些变量来建立排名，我以后该如何处理它们。换句话说，我应该从最终数据集中删除它们以进行训练，以避免与目标变量相关，或者我可以以不同的方式处理它们并保留它们。 - 如果我保留它们，根据它们是分类变量还是连续变量，对它们是否有特殊处理。

每个机器学习项目的起点都是 EDA。首先创建一些功能，例如他们收到错误索赔的频率或收到多少。然后做一些 EDA 来查找哪些功能更有用。其次，问题看起来像分类。聚类分析通常更难评估。

在数据科学中，当您制定业务模型时，EDA 探索性数据分析起着重要作用，包括数据清理、特征工程、过滤数据。如前所述，如何构建目标变量，这完全取决于您拥有的属性以及要应用哪种模型，例如线性回归或逻辑或决策树。您需要使用这些算法。但最重要的是，您需要找出影响变量。这可能是输出和给定输入之间的核心兴高采烈，必须相应地给予优先级。此外，必须删除不增加任何值的属性，因为这会导致过度拟合。您也可以进行聚类分析。有趣的是，任何未经限制的学习都可以转换为一种监督学习的形式。也许你可以尝试做逻辑回归或做线性回归等......并找出最适合您项目的模型。

相关内容

最新更新

热门标签：