Snowflake:复制命令在卸载时不会为多个文件生成常量SIze

从(选择object_construct(*(from mytable(file_format=(type=json，COMPRESSION=NONE(，overwrite=TRUE，single=False，最大文件大小=5368709120；

该表有2GB的数据。我想将它们分割成100mb的文件存储在S3中，但S3将它们分割为大小不均匀的文件。预期有多个文件具有100MB

我需要在弹性搜索中提高索引的性能，我正在使用smart_open进行多处理。所以处理文件会很方便。感谢

只有当每列中的每个值都完全相同时，才能获得相同的文件大小。

例如，如果您的表有firstname和lastname列，并且一条记录的值为"；约翰"Smith"；而另一个记录的值为"0"；迈克尔"Gardner"；然后，如果每个记录都被写入不同的文件，那么生成的JSON文件将是不同的大小，因为John对Michael的大小不同，Smith对Gardner的大小不同。

您也只能控制文件的最大大小，而不能控制实际的文件大小。如果你在一个文件中写入了10条记录，结果文件大小为950Mb，如果下一条记录的大小为100Mb，那么它将被写入一个新文件，原始文件将保持在950Mb

It not S3 split the files Its雪花码头大小split the file as use SINGLE=False in copy command。随着WH大小的增长，文件数量将增加

示例sppouse您使用XS大小的wh运行查询，它在s3上生成8个文件，如果您使用M大小的wh，它将在s3上创建16个文件。并且它的拆分是在并行模式下进行的，因此每个文件的大小可能不同。它不像是在复制命令中创建具有最大限制的文件，然后启动另一个文件。

相关内容

最新更新

热门标签：