当特征不相关时,皮尔逊相关性说明了什么



我有一个数据集(包括类在内的31个特性(。此数据集即将用于分类问题。我想使用Pearson相关来检查特征之间的相关性在pandas中存在。当我设置Pearson的threshold > 0.5时,我得到以下内容:

import pandas as pd
data = pd.read_csv("../dataset.csv")
cor = data.corr(method='pearson')
cor_target = abs(cor['Class'])
result = cor_target[cor_target > 0.5]
print(result)

结果是:

Class    1.0
Name: Class, dtype: float64

事实证明,所有30特征根本不相关。这是什么意思?功能是独立的,这总是一个很好的指标吗?

谢谢。

您的假设有些错误。

举个例子:

import pandas as pd
data = pd.DataFrame({'a': [1, 2, 3, 4, 5], 'b': [1, 2, 3, 4, 5], 'Class' : [0, 1, 1, 0, 1]})
cor = data.corr(method='pearson')
print(cor)
cor_target = abs(cor['Class'])
print(cor_target)
result = cor_target[cor_target > 0.5]
print(result)
a         b     Class
a      1.000000  1.000000  0.288675
b      1.000000  1.000000  0.288675
Class  0.288675  0.288675  1.000000
a        0.288675
b        0.288675
Class    1.000000
Name: Class, dtype: float64
Class    1.0
Name: Class, dtype: float64

特征集ab完全相同,它们有1.0的相关性,但仍然只能得到1

删除类标签,只观察中间特征之间的相关性。

观察相关矩阵,选择相关性较低的矩阵。

import pandas as pd
data = pd.DataFrame({'a': [1, 2, 3, 4, 5], 'b': [1, 2, 3, 4, 5], 'Class' : [0, 1, 1, 0, 1]})
cor = data[['a', 'b']].corr(method='pearson')
print(cor)
cor_target = abs(cor)
a    b
a  1.0  1.0
b  1.0  1.0

如果你想使用标签,试试scikit learn的功能重要性,https://scikit-learn.org/stable/modules/feature_selection.html

相关内容

最新更新