我试图将一个数据集的一列与另一个数据集的所有列相关联

我有2个CSV文件，一个叫training_data，另一个叫target data，我读过这两个文件，训练数据包含大约30列数据，目标数据有1列，我试图将目标数据中的一列与训练数据的所有列相关联

import pandas as pd
import tarfile
import numpy as np
import csv
#reading in the data
training_data = pd.read_csv(training_data_path)
training_target = pd.read_csv(training_targets_path)
%matplotlib inline
import matplotlib.pyplot as plt
#plotting histogram
training_data.hist(bins=60,figsize=(30,25))
#after reviewing the histograms it can be seen in the histogram of the average household sizes that around 50 counties have a AvgHousehold size of almost 0
#PctSomeCol18_24, PctEmployed16_Over, PctPrivateCoverageAlone all have missing data
display(training_data)
display(training_target)

TARGET_deathRate = training_target["TARGET_deathRate"]

corr_matrix=training_data.corr(training_target)

我尝试使用corr函数，但它不工作

最好在一个数据集中使用相关性，因此首先必须将这两个数据集连接起来，然后使用相关性函数。对于连接，您可以使用concat, append和join，我宁愿使用join:

df = training_data.join(training_target)  #joining  datasets
corr_matrix=df.corr()['TARGET_deathRate']

相关内容

最新更新

热门标签：