小贝子编程

用于摄取数据集并拆分为具有单个名称的较小数据集的功能?

本文关键字：数据集小数单个名功能拆分用于 python dataframe chunks
更新时间 : 2023-09-22
英文 : Function for ingesting dataset and spilting into smaller datasets with individual names?

我有一个大型数据集，我想将其分成10,000行左右的块，并为每个数据集命名。现在我正在手工做，但我知道有更好的方法。

df1 = df[0:10000]
df2 = df[10001:20000]

# some big DataFrame
# df = ...
# size of chunks
step = 10_000
chunks = [df[i:i+step] for i in range(0, len(df), step)]

非洲

数据来自哪里?

如果它是一个文件，例如CSV，你可以一次读取10000行。

下面的代码将创建一个键为DataFrame0、DataFrame1等的字典。

每个键的值将是一个包含10,000行的数据帧。

import pandas as pd
data_iterator = pd.read_csv('bigcsv.csv', chunksize=10000, header=None)
for d in data_iterator:
print(d)

最新更新