用于摄取数据集并拆分为具有单个名称的较小数据集的功能?



我有一个大型数据集,我想将其分成10,000行左右的块,并为每个数据集命名。现在我正在手工做,但我知道有更好的方法。

df1 = df[0:10000]
df2 = df[10001:20000]
# some big DataFrame
# df = ...
# size of chunks
step = 10_000
chunks = [df[i:i+step] for i in range(0, len(df), step)]

非洲

数据来自哪里?

如果它是一个文件,例如CSV,你可以一次读取10000行。

下面的代码将创建一个键为DataFrame0、DataFrame1等的字典。

每个键的值将是一个包含10,000行的数据帧。

import pandas as pd
data_iterator = pd.read_csv('bigcsv.csv', chunksize=10000, header=None)
for d in data_iterator:
print(d)