有没有一种方法可以在熊猫中查看我的数据帧，而不必每次都读取文件

这是我的代码：

import pandas as pd
df = pd.read_parquet("file.parqet", engine='pyarrow')
df_set_index = df.set_index('column1')

row_count = df.shape[0]  
column_count = df.shape[1]  
print(df_set_index)
print(row_count)
print(column_count)

每次我想进行行计数、列计数等操作时，我可以在不读取镶木地板文件的情况下运行此操作吗？它需要一段时间来读取文件，因为它很大，我已经读过一次了，但我不知道如何读取。

pd.read_parquet读取存储在光盘上的文件并将其存储在缓存中，缓存速度自然较慢，数据量很大。所以，你可以设计一个解决方案，比如：

1.(column_count

pd.read_parquet("file.parqet", engine='pyarrow', nrows=1).shape[1]

->这将为您提供只读取1行的列数
->shape返回一个值为(#rows，#columns(的元组，因此只需获取列数的第二个项，如上所示。

2.(row_count

cols_want = ['colmn1'] # put whatever column names you want here
row_count = pd.read_parquet("file.parqet", engine='pyarrow', usecols=cols_want).shape[0]

->这将给出列"0"中的行数；列1"；而不必阅读所有其他列(这就是您的解决方案需要一段时间的原因(。

3.(df.set_index(…(不应该存储在变量中，所以我不确定你想在那里做什么。如果你想看看列中有什么，只需使用上面的#2并删除"；。shape[0]"；调用

相关内容

最新更新

热门标签：