从技术角度来看,数据网格和多个数据仓库有什么区别?



我遇到了"数据网格"这个新概念;最近。在阅读了一些关于数据网格的博客和介绍视频后,从技术角度来看,我不清楚数据网格和组织中的多个数据仓库之间的区别是什么。

如果有人熟悉这个概念,可以和我分享一下吗?

  1. 除了"面向域的"原理,不同领域的数据网格和多个数据仓库的区别是什么?
  2. 数据网格如何解决来自不同单元(网格)的数据集成问题?

谢谢:)!

这里有一些数据网格介绍的链接:

如何从单片数据湖迁移到分布式数据网格

Data Mesh简介

它们有许多不同之处,但其中之一是API的标准化访问数据和元数据。从本质上讲,数据量子,也就是"原子"数据网格的元素与它的数据存储(或数据存储)无关。因此,当您考虑数据量的可观察性,字典和控制访问时,您需要一致性。

从技术角度来看,数据仓库围绕ETL(提取、转换、加载)的概念而存在。这意味着,在数据进入仓库之前,它被移动(并且经常被转换)。

数据网格是关于数据留在它所在的地方,在域中,它避免了管道(或者在数据起源的地方保持最低限度)。

我不太明白你所说的"整合不同公寓的数据"是什么意思。但我猜是关于整合不同领域的数据?

您可以使用分布式查询引擎(例如Trino或Spark SQL)在一个查询中连接来自不同来源的数据(使用多个预定义的"目录")。

Data Mesh还有其他方面,最具体的是关于改变公司文化和围绕领域工作的方式。看看这里:DataMesh架构——通用数据实现

最新更新