我试图将一个数据集的一列与另一个数据集的所有列相关联



我有2个CSV文件,一个叫training_data,另一个叫target data,我读过这两个文件,训练数据包含大约30列数据,目标数据有1列,我试图将目标数据中的一列与训练数据的所有列相关联

import pandas as pd
import tarfile
import numpy as np
import csv
#reading in the data
training_data = pd.read_csv(training_data_path)
training_target = pd.read_csv(training_targets_path)
%matplotlib inline
import matplotlib.pyplot as plt
#plotting histogram
training_data.hist(bins=60,figsize=(30,25))
#after reviewing the histograms it can be seen in the histogram of the average household sizes that around 50 counties have a AvgHousehold size of almost 0
#PctSomeCol18_24, PctEmployed16_Over, PctPrivateCoverageAlone all have missing data
display(training_data)
display(training_target)

TARGET_deathRate = training_target["TARGET_deathRate"]

corr_matrix=training_data.corr(training_target)

我尝试使用corr函数,但它不工作

最好在一个数据集中使用相关性,因此首先必须将这两个数据集连接起来,然后使用相关性函数。对于连接,您可以使用concat, append和join,我宁愿使用join:

df = training_data.join(training_target)  #joining  datasets
corr_matrix=df.corr()['TARGET_deathRate']

相关内容

最新更新