有没有一种方法可以在熊猫中查看我的数据帧,而不必每次都读取文件



这是我的代码:

import pandas as pd
df = pd.read_parquet("file.parqet", engine='pyarrow')
df_set_index = df.set_index('column1')

row_count = df.shape[0]  
column_count = df.shape[1]  
print(df_set_index)
print(row_count)
print(column_count)

每次我想进行行计数、列计数等操作时,我可以在不读取镶木地板文件的情况下运行此操作吗?它需要一段时间来读取文件,因为它很大,我已经读过一次了,但我不知道如何读取。

pd.read_parquet读取存储在光盘上的文件并将其存储在缓存中,缓存速度自然较慢,数据量很大。所以,你可以设计一个解决方案,比如:

1.(column_count

pd.read_parquet("file.parqet", engine='pyarrow', nrows=1).shape[1] 

->这将为您提供只读取1行的列数
->shape返回一个值为(#rows,#columns(的元组,因此只需获取列数的第二个项,如上所示。

2.(row_count

cols_want = ['colmn1'] # put whatever column names you want here
row_count = pd.read_parquet("file.parqet", engine='pyarrow', usecols=cols_want).shape[0]

->这将给出列"0"中的行数;列1";而不必阅读所有其他列(这就是您的解决方案需要一段时间的原因(。

3.(df.set_index(…(不应该存储在变量中,所以我不确定你想在那里做什么。如果你想看看列中有什么,只需使用上面的#2并删除";。shape[0]";调用

相关内容