Data Lake上的单个小拼花文件,还是关系SQL数据库



我正在Azure Synapse中设计一个数据湖,在我的模型中,有一个表将存储少量数据(如5000行(。

存储这些数据的单个拼花文件肯定会小于拼花文件的最小推荐大小(128MB(,我知道Spark并没有针对小文件进行优化。该表将链接到一个delta表,我将使用MERGE命令插入/更新新数据。

在这种情况下,关于性能,是使用delta表更好,还是应该在另一个DB中创建一个SQL关系表并将这些数据存储在那里?

这取决于多个因素,比如您将要运行的查询类型,以及您希望运行merge命令将数据追加到delta的频率。但是,即使您确实执行了分析查询,看看数据的大小,我也会使用关系数据库。

最新更新