谷歌数据流与MsSSIS ETL工具的比较



嗨,所有GCP开发人员,

我是GCP数据工程产品的新手,有微软SSIS ETL工具的经验,我想知道谷歌数据流中有哪些不同的转换和功能。MS SSIS工具提供了执行ETL的简单接口(拖放(和SQL用法。

数据流大多是用Python编写的,但当特定字段值小于所需数量时,如何在CSV/文本文件中仅更改或加载某些行(基于一个字段筛选行(?

数据流名称无处不在(在线(,但为什么没有可用的数据处理示例文档?

如果你知道任何在线课程(coursera除外(或实用和实践书籍,请分享。

谢谢

Dataflow是一个托管的Apache Beam服务,因此应用一般的Beam快速启动,只需将runner设置为DataflowRunner即可。

在这里,您可以找到Java SDK可用转换的摘要(包括您在前面提到的过滤行示例中使用的Filter(。Beam也适用于Python和Golang,但Java API是这三种语言中最成熟的。

此外,如果您想要一个更类似于Microsoft SSIS的图形界面,您可能需要研究Dataprep,它是在Dataflow之上构建的,确实提供了一些更具交互性的功能。

最新更新