配置单元表,仅包含镶木地板文件中字段的子集



我正在创建一个配置单元表,如下所示:

Create external table test as (
Col1 string,
Col2 string)
Stored as parquet ‘/file.parquet’

我的问题是,如果拼花地板文件有100个字段,而我需要我的表只使用其中的5个字段,我可以在表定义中使用这5个列名吗?或者我需要做一些不同的事情?

是的,这会起作用。您可以创建具有所需列的外部表。我通过将一个由6列组成的镶木地板文件写入外部路径,然后创建一个顶部有3列的外部表来测试这一点。之后,查询该表只得到3列。

注意:如果您想通过spark访问所有列,可以从外部文件路径读取。

最新更新