是否可以在 S3 中同时索引和分区 Parquet 文件,或者此功能仅在文件存储类型的卷上可用?
我正在寻找一种方法,让研究人员通过 EMR 笔记本访问 S3 中的相同数据,用于 (a( 通用 R 和 Python 脚本,以及 (b( 支持 Spark 的查询。但是我们现在拥有的专有解决方案和查询语言在 NFS 存储上提供索引和分区 - 因此我想保留此功能。我看到 Delta Lake 提供了这个,但我想知道这是否可以用像 Arrow 这样的更简单的工具来实现。
您可以使用 Delta lake 对 Parquet 文件进行分区。默认情况下,它们也会被索引。
你可以这样做
%sql
CREATE TABLE UsableTable_unpartitioned
USING DELTA
LOCATION 'Location of the Parquet File on S3' ;
CREATE TABLE UsableTable
USING DELTA
PARTITIONED BY (my_partitioned_column)
LOCATION 'MyS3Location'
select * from UsableTable_unpartitioned;
DROP TABLE UsableTable_unpartitioned;
验证您的分区和创建的所有必需信息:
%sql
describe detail UsableTable
您可以使用 JDBC 公开此表