如何为监督式机器学习项目构建目标变量



我对机器学习很陌生,经验很少,我做过一些项目。

现在我有一个与保险有关的项目。所以我有关于客户的数据库,我将合并这些数据库以获取有关客户的所有可能信息,我有一个用于索赔的数据库。我需要建立一个模型,根据等级确定客户的风险。

我的问题:我需要构建我的目标变量,根据客户的风险对客户进行排名,依靠索赔。我可以有不同的策略来做到这一点,但我对如何处理以下内容感到困惑: - 在建立聚类等排名之前,我应该做特定类型的分析,还是需要有一个与项目提供者愿景相匹配的强有力的理论假设。 - 如果我使用索赔数据库中的一些变量来建立排名,我以后该如何处理它们。换句话说,我应该从最终数据集中删除它们以进行训练,以避免与目标变量相关,或者我可以以不同的方式处理它们并保留它们。 - 如果我保留它们,根据它们是分类变量还是连续变量,对它们是否有特殊处理。

每个机器学习项目的起点都是 EDA。首先创建一些功能,例如他们收到错误索赔的频率或收到多少。然后做一些 EDA 来查找哪些功能更有用。其次,问题看起来像分类。聚类分析通常更难评估。

在数据科学中,当您制定业务模型时,EDA 探索性数据分析起着重要作用,包括数据清理、特征工程、过滤数据。如前所述,如何构建目标变量,这完全取决于您拥有的属性以及要应用哪种模型,例如线性回归或逻辑或决策树。您需要使用这些算法。但最重要的是,您需要找出影响变量。这可能是输出和给定输入之间的核心兴高采烈,必须相应地给予优先级。此外,必须删除不增加任何值的属性,因为这会导致过度拟合。 您也可以进行聚类分析。有趣的是,任何未经限制的学习都可以转换为一种监督学习的形式。也许你可以尝试做逻辑回归或做线性回归等......并找出最适合您项目的模型。

最新更新