小贝子编程

在python中使用parquete时，chunksize的替代项是什么

本文关键字：chunksize 是什么 python parquete python pandas machine-learning bioinformatics parquet
更新时间 : 2023-09-21
英文 : what is the alternate of chunk_size while using parquete in python

hi之前我曾使用.csv文件作为数据帧，但由于一些问题，我选择使用镶木地板文件，我得到了"read_table((得到了一个意外的关键字参数"chunk"错误我使用以下代码-：

reader = pd.read_parquet("Org_Proteins_Diseases.parquet", engine='pyarrow', chunk=1000) 
#chunksize depends with you colsize

拼花地板文件中的数据是按小批量组织的，称为row_groups，默认大小为64mb。

你可以按行组读取数据，而不是读取整个文件，但你必须使用pyarrow(它在pandas中不可用(

import pyarrow as pa
import pyarrow.parquet as pq
def read_by_row_group(file_name):
parquet_file = pq.ParquetFile(file_name)
for row_group in range(parquet_file.num_row_groups):
yield parquet_file.read_row_group(row_group).to_pandas()

for df in read_by_row_group("Org_Proteins_Diseases.parquet"):
print(len(df))

在python中使用parquete时，chunksize的替代项是什么

相关内容

最新更新

热门标签：