什么是AWS S3数据集



查看awswrangler.s3.to_csvawswrangler.s3.to_parquet的文档,有一个dataset参数。

从测试来看,设置dataset=True似乎允许将新数据附加到已经存在的集合中。看起来,当dataset=True时,我无法指定文件名,而AWS会自动生成添加到指定path中的文件的名称。

除此之外,我找不到更多关于dataset含义的信息。它只是指一般概念,还是在AWS的上下文中有特定的含义?dataset究竟是什么?什么时候应该设置为True

dataset=True选项允许您存储整个数据集,包括所有元数据、索引等。

dataset参数文档:

数据集(bool(–如果为True,则存储为数据集而不是普通文件。如果为True则启用以下所有参数:partition_cols、模式、数据库、表、描述、参数、列注释、concurrent_partitioning、catalog_version、projection_enabled、projection_types、project_ranges、projection_values、project_interval、projection_digitals、catalog_id,schema_vevolution。

注意保存数据集时保存的所有额外内容。保存到CSV或Parquet时,所有这些信息,如columns_commentsconcurrent_partitioningprojection_values,都将丢失。但另一方面,这些值可能只有在您计划稍后通过awswrangler/panda对数据进行进一步操作时才有用。

还要注意,如果设置dataset=True,则必须为其提供文件名前缀,而不是单个文件名,因为生成的输出将分布在多个文件中。

如果您想在Pandas之外的任何其他工具中使用数据,例如将CSV加载到Excel中,那么您很可能希望设置dataset=False并输出到单个文件。

相关内容

  • 没有找到相关文章

最新更新