小贝子编程

Data Lake上的单个小拼花文件，还是关系SQL数据库

本文关键字：关系数据库 SQL 文件 Lake 单个小 Data sql apache-spark bigdata parquet azure-data-lake
更新时间 : 2023-09-21
英文 : Small single parquet file on Data Lake, or relational SQL DB?

我正在Azure Synapse中设计一个数据湖，在我的模型中，有一个表将存储少量数据(如5000行(。

存储这些数据的单个拼花文件肯定会小于拼花文件的最小推荐大小(128MB(，我知道Spark并没有针对小文件进行优化。该表将链接到一个delta表，我将使用MERGE命令插入/更新新数据。

在这种情况下，关于性能，是使用delta表更好，还是应该在另一个DB中创建一个SQL关系表并将这些数据存储在那里？

这取决于多个因素，比如您将要运行的查询类型，以及您希望运行merge命令将数据追加到delta的频率。但是，即使您确实执行了分析查询，看看数据的大小，我也会使用关系数据库。

相关内容