嗨,所有GCP开发人员,
我是GCP数据工程产品的新手,有微软SSIS ETL工具的经验,我想知道谷歌数据流中有哪些不同的转换和功能。MS SSIS工具提供了执行ETL的简单接口(拖放(和SQL用法。
数据流大多是用Python编写的,但当特定字段值小于所需数量时,如何在CSV/文本文件中仅更改或加载某些行(基于一个字段筛选行(?
数据流名称无处不在(在线(,但为什么没有可用的数据处理示例文档?
如果你知道任何在线课程(coursera除外(或实用和实践书籍,请分享。
谢谢
Dataflow是一个托管的Apache Beam服务,因此应用一般的Beam快速启动,只需将runner设置为DataflowRunner即可。
在这里,您可以找到Java SDK可用转换的摘要(包括您在前面提到的过滤行示例中使用的Filter(。Beam也适用于Python和Golang,但Java API是这三种语言中最成熟的。
此外,如果您想要一个更类似于Microsoft SSIS的图形界面,您可能需要研究Dataprep,它是在Dataflow之上构建的,确实提供了一些更具交互性的功能。