访问AWS ParallelCluster上的s3 bucket



我需要访问AWS ParallelCluster节点上的S3 bucket。我确实研究了ParallelCluster文档中的s3_read_write_resource选项。但是,目前还不清楚我们如何才能获得这个水桶。例如,它会安装在节点上吗,或者用户默认情况下可以访问它。我确实测试了后者,尝试访问我在配置文件中使用s3_read_write_resource选项声明的bucket,但无法访问它(aws s3 ls s3://<name-of-the-bucket>(。

我确实讨论了这个github问题,讨论了使用s3fs安装S3 bucket。根据我的经验,使用s3fs访问对象的速度非常慢。

所以,我的问题是,

使用AWS ParallelCluster配置文件中的s3_read_write_resource选项时,我们如何访问S3存储桶

这些参数在ParallelCluster中用于包括为集群实例创建的实例角色的S3权限。它们被映射到Cloudformation模板参数S3ReadResource和S3ReadWriteResource中。后来在Cloudformation模板中使用。例如,这里和这里。访问S3对象没有特殊的方法。

要在一个集群实例上访问S3,我们需要使用aws-cli或任何SDK。将使用实例元数据服务从实例角色自动获取凭据。

请注意,ParallelCluster不授予列出S3对象的权限。

从S3_read_resource中定义的S3存储桶中检索现有对象,以及检索对象并将对象写入S3_read_write_resources中定义的S3bucket应该可以工作。

然而;aws s3ls";或";aws s3 ls s3://bucket的名称"需要额外的权限。看见https://aws.amazon.com/premiumsupport/knowledge-center/s3-access-denied-listobjects-sync/.

我不会使用s3fs,因为它不支持AWS,据报道速度慢(正如您已经注意到的(,还有其他原因。

您可能需要检查FSx部分。它可以为Lustre文件系统创建一个附加FSx。它可以以本机方式将文件导入S3或从S3导出文件。我们只需要在本节中设置import_path和export_path。

最新更新