在python中使用parquete时,chunksize的替代项是什么



hi之前我曾使用.csv文件作为数据帧,但由于一些问题,我选择使用镶木地板文件,我得到了"read_table((得到了一个意外的关键字参数"chunk"错误我使用以下代码-:

reader = pd.read_parquet("Org_Proteins_Diseases.parquet", engine='pyarrow', chunk=1000) 
#chunksize depends with you colsize

拼花地板文件中的数据是按小批量组织的,称为row_groups,默认大小为64mb。

你可以按行组读取数据,而不是读取整个文件,但你必须使用pyarrow(它在pandas中不可用(

import pyarrow as pa
import pyarrow.parquet as pq
def read_by_row_group(file_name):
parquet_file = pq.ParquetFile(file_name)
for row_group in range(parquet_file.num_row_groups):
yield parquet_file.read_row_group(row_group).to_pandas()

for df in read_by_row_group("Org_Proteins_Diseases.parquet"):
print(len(df))