将Snowflake数据库中的大量数据拉入AWS SageMaker的最快方法是什么



将Snowflake中的大型数据集拉入AWS中的SageMaker实例的最快方法是什么?雪花python连接器(我目前使用的(与雪花的火花连接器相比如何?

SageMaker培训作业(如S3(作为输入源,但您也可以将EFS(NFS(或FSx用于Lustre,以获得更高性能的

对于S3,我会使用AWS Glue从Snowflake读取数据,或者在EMR上使用Spark,并将数据存储在S3中的分区中。如果你的算法支持,分区将允许你在多台机器上分配训练

雪花中也有copy into

理想情况下,您应该以Parquet格式存储,但[gzipped]CSV是SageMaker内置算法的常见格式。如果你使用自己的算法,那么可能会使用Parquet

如果你在做预测,你也可以使用亚马逊预测,但它可能会得到昂贵的

最新更新