查看awswrangler.s3.to_csv
或awswrangler.s3.to_parquet
的文档,有一个dataset
参数。
从测试来看,设置dataset=True
似乎允许将新数据附加到已经存在的集合中。看起来,当dataset=True
时,我无法指定文件名,而AWS会自动生成添加到指定path
中的文件的名称。
除此之外,我找不到更多关于dataset
含义的信息。它只是指一般概念,还是在AWS的上下文中有特定的含义?dataset
究竟是什么?什么时候应该设置为True
?
dataset=True
选项允许您存储整个数据集,包括所有元数据、索引等。
dataset
参数文档:
数据集(bool(–如果为True,则存储为数据集而不是普通文件。如果为True则启用以下所有参数:partition_cols、模式、数据库、表、描述、参数、列注释、concurrent_partitioning、catalog_version、projection_enabled、projection_types、project_ranges、projection_values、project_interval、projection_digitals、catalog_id,schema_vevolution。
注意保存数据集时保存的所有额外内容。保存到CSV或Parquet时,所有这些信息,如columns_comments
、concurrent_partitioning
、projection_values
,都将丢失。但另一方面,这些值可能只有在您计划稍后通过awswrangler/panda对数据进行进一步操作时才有用。
还要注意,如果设置dataset=True
,则必须为其提供文件名前缀,而不是单个文件名,因为生成的输出将分布在多个文件中。
如果您想在Pandas之外的任何其他工具中使用数据,例如将CSV加载到Excel中,那么您很可能希望设置dataset=False
并输出到单个文件。