小贝子编程

如何使用python从AWS S3读取在列上分区的拼花地板文件数据

本文关键字：分区数据文件 python 何使用 AWS S3 读取 python amazon-s3 parquet
更新时间 : 2023-09-21
英文 : How to read parquet file data partitioned on column from AWS S3 using python

我已经使用pyspark将下表保存到AWS S3中，按列"进行分区；channel_name"；。使用以下代码。

df.write.option("header",True) 
.partitionBy("channel_name") 
.mode('append')
.parquet("s3://path")

速度//tr>//tr>//tr>

start_timestamp	channel_name	value
2020-11-02 09:14:29
2020年11月2日09:18:32速度
2020-11-02 09:32:42	速度
2020-11-03 13:06:03	Temp
2020-11-03 13:10:012020-11-03 13:54:38温度
2020-11-03 14:46:25	速度
2020-11-03 14:57:31	公里
2020-11-03 15:07:07	公里

我得到了答案谢谢

import s3fs
import pyarrow.parquet as pq
fs = s3fs.S3FileSystem()
bucket = 'bucket_name'
path = 'path_of_folder' #if its a directory omit the traling /
bucket_uri = f's3://{bucket}/{path}'
dataset = pq.ParquetDataset(bucket_uri, filesystem=fs)
table = dataset.read()
df = table.to_pandas()

如何使用python从AWS S3读取在列上分区的拼花地板文件数据

我得到了答案谢谢

相关内容

最新更新

热门标签：