将字典数据拆分为2部分并存储到变量中



所以我有这个余弦相似度度量字典数据与我存储在变量'相似性'。数据的PIC。我想知道如何将这些数据分成70和30个百分比。我想把这个数据分成两部分并将这两部分存储在一个变量中最好是7:3分割

我问这个问题的原因是我有一个准确度算法,给出了该数据的准确性,但问题是,我使用相同的数据进行训练以及测试,你可以在代码中看到,所以我收到100% acc显然,因为我的训练和测试数据是相同的。所以我想把数据分成70% 30%训练是70%测试是30%

print(similarity)

train_r =  np.array(similarity)
test_r =  np.array(similarity)
train_c = train_r[:,10]
test_c = test_r[:,10]
a = train_c
b = test_c
cos_sim = (dot(a, b)/(norm(a)*norm(b))) * 100
print(cos_sim)

如果我能得到答案,我将非常感激。非常感谢

应该这样做:

split_rate = 0.7
split_idx = int(len(similarity)*split_rate)
train_r =  np.array(similarity)[:split_idx] 
test_r =  np.array(similarity)[split_idx:] 

最新更新