如何在python中使用awswrangler从S3读取所有parquet文件

需要读取ext .parquet的所有parquet文件

s3_path = "s3://buckte/table/files.parquet"
df = wr.s3.read_parquet(
path=[s3_path]
)

，但仍然是错误:

Error occurred (404) when calling the HeadObject

诀窍是只放一个字符串作为s3路径和path_sufix

s3_path = "s3://buckte/table"
df = wr.s3.read_parquet(
path=s3_path,
path_suffix = ".snappy.parquet" ,
use_threads =True
)

你得到这个错误是因为你想要搜索的文件没有找到，或者你想要读取的位置不存在。

您可以指定想要访问的文件的确切(和正确)位置。或者，如果您想从一个文件夹中读取所有的parquet文件，您可以指定文件夹的名称，同时指定扩展名(".parquet"， "。csv"， "。json")等)通过后缀属性。

下面的代码帮助读取文件夹'table'中的所有parquet文件。

df = wr.s3.read_parquet(
path = "s3://bucket/table/",
path_suffix = ".parquet"
)

如果您想要读取bucket中的所有parquet文件，下面的代码可以提供帮助

df = wr.s3.read_parquet(
path = "s3://bucket/",
path_suffix = ".parquet"
)

相关内容