如何实现数据网格概念数据工程产品或应用

我正在尝试在与业务相关的应用程序中实现数据网格概念。让我先描述一下：

已经使用数据HDFS、hive和cassandra_database来管理数据。

1：据我所知，在数据网格概念中，多个数据库、内部部署数据、数据湖和数据仓库连接在一个点上，分布这些数据。这里，每个数据仓库、数据湖或数据库都是用于数据网格的一个节点。这个整体概念对数据网格来说正确吗？

2：如何在我的项目中实现，我正在尝试使用graphDb数据库，因为它支持集群连接到另一个数据库作为主节点和工作节点(存储库(。

3:我可以用另一个平台检查吗，除了graphDb。像neo4j，有可能吗？

任何人都可以在我的项目中帮助实现数据网格技术或任何参考实现。

当我在世界上最大的医疗保健公司之一工作时，我们设计并构建了世界上最大医疗保健"Mesh"数据库，该数据库位于我们管理的数据仓库之上。

在概念化数据库时，我们预计在3年内(早在2018年(RAM中将有52TB的数据。在对市场上的Graph DB(Anzo、Neptune、Neo4j(进行了一些研究后，我们最终选择了TigerGraph的速度和规模。TigerGraph将允许您水平扩展(添加更多机器以创建更大的集群(

如果您想要一些入门资源：https://community.tigergraph.com/t/tigergraph-getting-started-guide/11

如果您想要一个免费的沙盒环境：https://tgcloud.io

如果您想构建一个用于分析的大型图，请查看AnzoGraph DB，它是一个大规模并行处理(MPP(图数据仓库引擎，通过添加额外的商品Intel服务器，可以在水平方向上实现近乎线性的放大性能。该体系结构没有任何共享，因此所有数据都会在集群中自动分片，每个查询都会自动分解为C++程序，这些程序在每个cpu核心上同时并行运行。

AnzoGraph针对OLAP风格的查询进行了优化，即极快的并行加载、庞大的数据集、复杂的分析查询、动态&物化视图，以及迭代清理所需的出色ELT性能，链接&根据需要重塑数据库中的图形数据。与大多数OLAP和图形系统不同，数据库是无模式的，它允许立即直接加载(甚至是脏的(源数据，而无需预先创建ETL管道和目标模式，也无需在加载源数据之前将源数据预先形成图形。一个虚拟图选项(数据虚拟化/联合查询(正在预览中，该选项允许您选择性地将部分图源数据保留在原始源中，并仅在通过自动下推查询引用时访问。有一个免费的单服务器版本。

请注意，AnzoGraph不是像Neo或Neptune那样为OLTP设计的。

免责声明：我为剑桥语义股份有限公司工作

地图图数据库

AFAIK，data mesh的概念是将数据仓库和数据湖分散到多个域中。所以，光靠你是做不到每件事的。您也需要治理策略。这不像在一个节点下部署所有内容。它也以分布式方式工作。你需要彻底理解。

相关内容

最新更新

热门标签：