什么是AWS S3数据集

查看awswrangler.s3.to_csv或awswrangler.s3.to_parquet的文档，有一个dataset参数。

从测试来看，设置dataset=True似乎允许将新数据附加到已经存在的集合中。看起来，当dataset=True时，我无法指定文件名，而AWS会自动生成添加到指定path中的文件的名称。

除此之外，我找不到更多关于dataset含义的信息。它只是指一般概念，还是在AWS的上下文中有特定的含义？dataset究竟是什么？什么时候应该设置为True？

dataset=True选项允许您存储整个数据集，包括所有元数据、索引等。

dataset参数文档：

数据集(bool(–如果为True，则存储为数据集而不是普通文件。如果为True则启用以下所有参数：partition_cols、模式、数据库、表、描述、参数、列注释、concurrent_partitioning、catalog_version、projection_enabled、projection_types、project_ranges、projection_values、project_interval、projection_digitals、catalog_id，schema_vevolution。

注意保存数据集时保存的所有额外内容。保存到CSV或Parquet时，所有这些信息，如columns_comments、concurrent_partitioning、projection_values，都将丢失。但另一方面，这些值可能只有在您计划稍后通过awswrangler/panda对数据进行进一步操作时才有用。

还要注意，如果设置dataset=True，则必须为其提供文件名前缀，而不是单个文件名，因为生成的输出将分布在多个文件中。

如果您想在Pandas之外的任何其他工具中使用数据，例如将CSV加载到Excel中，那么您很可能希望设置dataset=False并输出到单个文件。

相关内容

最新更新

热门标签：