正在删除数据集的一部分



我对python和numpy-scipy包还很陌生。我正在为一项课堂作业做回归分析,该作业涉及在数据集上尝试不同的回归技术,看看哪一种有效。这涉及到从数据集中删除值,并查看哪种算法在减少数据集的情况下表现良好。现在我正在索引数据集长度的一小部分。有点像。

data = np.loadtxt("filename")
to_be_used = data[0:int(0.6(len(data)))]

我还有别的办法吗?比方说,我想随机选择60%的数据,而不是前60个元素。

您可以使用numpy.random.choice函数从数组中随机获取一组数据:

subset = np.random.choice(data, int(len(data)*0.6), replace=False)

然而,如果你想创建多个不重叠的随机集,你应该打乱你的数组,然后使用常规切片来获得你想要的每个区块的数量。例如,将数据随机一分为二:

np.shuffle(data)
one_random_half = data[:len(data)//2]
other_random_half = data[len(data)//2:]

最新更新