如何在Python中以特定的间隔对数据集进行切片



我有一个n行的数据集,如何使用Python在整个数据集中每特定行数访问特定行数?

例如,在100行数据集中,我想每10行访问10行,如1:10、20:30、40:50、60:70、80:90

我能想到这样的

df.iloc[np.array([int(x/10) for x in df.index]) % 2 == 0]

它获取数据帧的索引,将其除以10,并将其强制转换为int。在本例中,这基本上只是删除了最后一个数字。

使用modulo语句,前10行为True,后10行为False,依此类推。然后将其与iloc一起使用,以仅获得具有True值的行。

这需要一个不断增加的指数。例如,如果某些行已经被过滤掉,则情况并非如此。reset_index可以用于重置索引。

最新更新