如何使用python从AWS S3读取在列上分区的拼花地板文件数据



我已经使用pyspark将下表保存到AWS S3中,按列"进行分区;channel_name";。使用以下代码。

df.write.option("header",True) 
.partitionBy("channel_name") 
.mode('append')
.parquet("s3://path") 
速度//tr>//tr>//tr>
start_timestampchannel_namevalue
2020-11-02 09:14:29
2020年11月2日09:18:32速度
2020-11-02 09:32:42速度
2020-11-03 13:06:03Temp
2020-11-03 13:10:012020-11-03 13:54:38温度
2020-11-03 14:46:25速度
2020-11-03 14:57:31公里
2020-11-03 15:07:07公里

我得到了答案谢谢

import s3fs
import pyarrow.parquet as pq
fs = s3fs.S3FileSystem()
bucket = 'bucket_name'
path = 'path_of_folder' #if its a directory omit the traling /
bucket_uri = f's3://{bucket}/{path}'
dataset = pq.ParquetDataset(bucket_uri, filesystem=fs)
table = dataset.read()
df = table.to_pandas() 

最新更新