ETL on GCP for ML



我是GCP的新手,我的要求如下:

想从BigQuery中提取多个表,转换数据并以tsv格式保存在Google云存储中用于ML模型预测。我想在Python代码中实现这一点,这样我就可以对它有更多的控制,我可以安排它。你能建议最好的方法或其他替代方法吗?

我没有找到任何资源来解释上述问题,大多数文章都是关于将外部数据加载到BigQuery的ETL,但我的数据已经在BigQuery中,我只需要转换它并将其保存在某个地方(GCS)

如果您可以执行所有的转换是SQL,我强烈建议避免使用Python进行数据转换和处理,仅用于API调用(如果您使用Cloud Scheduler或Cloud Workflows之类的产品,您甚至可以避免使用Python代码)。

对于导出,使用BigQuery export语句,并将field_delimiter设置为t。如果数据小于1Gb,可以使用不带通配符*的GCS URI。否则,通配符将是强制性的,并且您将有几个输出文件。

如果这是一个问题,您可以重用我在我的一篇文章中分享的代码示例->那篇文章是BigQuery导出,您几乎可以重用其中的所有代码