在 S3 中对镶木地板进行索引和分区



是否可以在 S3 中同时索引和分区 Parquet 文件,或者此功能仅在文件存储类型的卷上可用?

我正在寻找一种方法,让研究人员通过 EMR 笔记本访问 S3 中的相同数据,用于 (a( 通用 R 和 Python 脚本,以及 (b( 支持 Spark 的查询。但是我们现在拥有的专有解决方案和查询语言在 NFS 存储上提供索引和分区 - 因此我想保留此功能。我看到 Delta Lake 提供了这个,但我想知道这是否可以用像 Arrow 这样的更简单的工具来实现。

您可以使用 Delta lake 对 Parquet 文件进行分区。默认情况下,它们也会被索引。

你可以这样做

%sql
CREATE TABLE UsableTable_unpartitioned
USING DELTA
LOCATION 'Location of the Parquet File on S3' ;
CREATE TABLE UsableTable
USING DELTA
PARTITIONED BY (my_partitioned_column)
LOCATION 'MyS3Location'
select * from UsableTable_unpartitioned;
DROP TABLE UsableTable_unpartitioned;

验证您的分区和创建的所有必需信息:

%sql
describe detail UsableTable

您可以使用 JDBC 公开此表

最新更新