我已经使用pyspark将下表保存到AWS S3中,按列"进行分区;channel_name";。使用以下代码。
df.write.option("header",True)
.partitionBy("channel_name")
.mode('append')
.parquet("s3://path")
start_timestamp | channel_name | value |
---|---|---|
2020-11-02 09:14:29 | ||
2020年11月2日09:18:32速度 | ||
2020-11-02 09:32:42 | 速度 | |
2020-11-03 13:06:03 | Temp | //tr>|
2020-11-03 13:10:012020-11-03 13:54:38温度 | ||
2020-11-03 14:46:25 | 速度 | |
2020-11-03 14:57:31 | 公里 | //tr>|
2020-11-03 15:07:07 | 公里 | //tr>
我得到了答案谢谢
import s3fs
import pyarrow.parquet as pq
fs = s3fs.S3FileSystem()
bucket = 'bucket_name'
path = 'path_of_folder' #if its a directory omit the traling /
bucket_uri = f's3://{bucket}/{path}'
dataset = pq.ParquetDataset(bucket_uri, filesystem=fs)
table = dataset.read()
df = table.to_pandas()