如何实现数据网格概念数据工程产品或应用



我正在尝试在与业务相关的应用程序中实现数据网格概念。让我先描述一下:

已经使用数据HDFS、hive和cassandra_database来管理数据。

1:据我所知,在数据网格概念中,多个数据库、内部部署数据、数据湖和数据仓库连接在一个点上,分布这些数据。这里,每个数据仓库、数据湖或数据库都是用于数据网格的一个节点。这个整体概念对数据网格来说正确吗?

2:如何在我的项目中实现,我正在尝试使用graphDb数据库,因为它支持集群连接到另一个数据库作为主节点和工作节点(存储库(。

3:我可以用另一个平台检查吗,除了graphDb。像neo4j,有可能吗?

任何人都可以在我的项目中帮助实现数据网格技术或任何参考实现。

当我在世界上最大的医疗保健公司之一工作时,我们设计并构建了世界上最大医疗保健"Mesh"数据库,该数据库位于我们管理的数据仓库之上。

在概念化数据库时,我们预计在3年内(早在2018年(RAM中将有52TB的数据。在对市场上的Graph DB(Anzo、Neptune、Neo4j(进行了一些研究后,我们最终选择了TigerGraph的速度和规模。TigerGraph将允许您水平扩展(添加更多机器以创建更大的集群(

如果您想要一些入门资源:https://community.tigergraph.com/t/tigergraph-getting-started-guide/11

如果您想要一个免费的沙盒环境:https://tgcloud.io

如果您想构建一个用于分析的大型图,请查看AnzoGraph DB,它是一个大规模并行处理(MPP(图数据仓库引擎,通过添加额外的商品Intel服务器,可以在水平方向上实现近乎线性的放大性能。该体系结构没有任何共享,因此所有数据都会在集群中自动分片,每个查询都会自动分解为C++程序,这些程序在每个cpu核心上同时并行运行。

AnzoGraph针对OLAP风格的查询进行了优化,即极快的并行加载、庞大的数据集、复杂的分析查询、动态&物化视图,以及迭代清理所需的出色ELT性能,链接&根据需要重塑数据库中的图形数据。与大多数OLAP和图形系统不同,数据库是无模式的,它允许立即直接加载(甚至是脏的(源数据,而无需预先创建ETL管道和目标模式,也无需在加载源数据之前将源数据预先形成图形。一个虚拟图选项(数据虚拟化/联合查询(正在预览中,该选项允许您选择性地将部分图源数据保留在原始源中,并仅在通过自动下推查询引用时访问。有一个免费的单服务器版本。

请注意,AnzoGraph不是像Neo或Neptune那样为OLTP设计的。

免责声明:我为剑桥语义股份有限公司工作

地图图数据库

AFAIK,data mesh的概念是将数据仓库和数据湖分散到多个域中。所以,光靠你是做不到每件事的。您也需要治理策略。这不像在一个节点下部署所有内容。它也以分布式方式工作。你需要彻底理解。

最新更新