GCP上云数据融合与数据流的区别



GCP管道服务之间的区别是什么:云数据流与云数据融合。。。什么时候给你?

我在数据融合中用Basic做了10个实例的高水平定价。以及数据流中的10个实例集群(n1-标准-8(。

Datafusion的定价是原来的两倍多。

每个的优缺点是什么

Cloud Dataflow是专门为高度并行化的图形处理而构建的。并且可以用于批量处理和基于流的处理。它也被构建为完全管理的,混淆了管理和理解底层资源扩展概念的需要,例如如何优化洗牌性能或处理关键的不平衡问题。用户/开发人员负责通过代码构建图形;创建N个变换和/或操作以实现期望的目标。例如:从存储器中读取文件,处理文件中的每一行,从行中提取数据,将数据转换为数字,以X为一组对数据求和,将输出写入数据湖。

云数据融合专注于实现数据集成场景=>从源读取(通过一组可扩展的连接器(和写入目标,如BigQuery、存储等。它确实有并行化的概念,但它们不像云数据流那样得到完全管理。CDF位于Cloud Dataproc之上,后者是基于Hadoop处理的托管版本。它的亮点是利用一组可扩展的连接器和运算符进行基于可视化的图形开发。

你的问题是基于";成本;概念。我的建议是退一步,定义你的处理/图形目标是什么样子的。然后看每种产品的价值。如果您希望完全控制处理语义,更加关注分析,并且希望批量运行,或者必须关注数据流。如果你想要点击式数据移动,不太关注数据分析,也不需要流媒体,那么看看CDF。

最新更新