hi之前我曾使用.csv文件作为数据帧,但由于一些问题,我选择使用镶木地板文件,我得到了"read_table((得到了一个意外的关键字参数"chunk"错误我使用以下代码-:
reader = pd.read_parquet("Org_Proteins_Diseases.parquet", engine='pyarrow', chunk=1000)
#chunksize depends with you colsize
拼花地板文件中的数据是按小批量组织的,称为row_groups
,默认大小为64mb。
你可以按行组读取数据,而不是读取整个文件,但你必须使用pyarrow(它在pandas中不可用(
import pyarrow as pa
import pyarrow.parquet as pq
def read_by_row_group(file_name):
parquet_file = pq.ParquetFile(file_name)
for row_group in range(parquet_file.num_row_groups):
yield parquet_file.read_row_group(row_group).to_pandas()
for df in read_by_row_group("Org_Proteins_Diseases.parquet"):
print(len(df))