我有一个与一些地理实体相关的几个指标的数据集,我想研究影响指标a(在其他指标中)的因素。我需要确定哪些指标影响最大(相关性)我应该使用哪种ML算法我想为我的指标a建立一种评分函数以允许其预测
输入图片描述
你要找的是相关系数,你有多种选择,最常见的是:
- 皮尔逊系数,仅衡量两个变量之间的线性关系,参见[Scipy的实现]
- 可以显示非线性关系的Spearman系数,参见Scipy的实现
您还可以使用z归一化对数据进行规范化,然后进行简单的线性回归。回归系数可以让您了解每个变量对结果的影响。然而,这种方法对可能存在的多重共线性非常敏感,特别是如果您的变量是地理的。
你能提供一个数据集的例子吗?离散变量还是连续变量?你用的是什么软件?
无论如何,测试相关性的一种简单方法(不涉及ML算法)是简单地通过创建数据矩阵对选定的特征或整个数据集执行Pearson或Spearman的相关系数。你可以在Python中使用NumPy(见此)或R(见此)。
您还可以使用简单的线性回归或逻辑/多项逻辑回归(取决于数据的性质)来量化其他特征对目标变量的影响。只要记住"相关性"不是因果关系。看这里看一些模型。
那么就取决于你的分析对象是汇总所有地理点的所有特征还是为每个"子集"创建协方差矩阵;与地理点相关的观测