为 S3 提供基于 Hadoop/Spark IAM 角色的访问的正确方法是什么？

我们在EC2上运行Hadoop集群，EC2实例连接到一个可以访问S3 bucket的角色，例如："stackoverflow example"。

有几个用户正在集群中放置Spark作业，我们过去使用了密钥，但不想继续，希望迁移到角色，所以放置在Hadoop集群上的任何作业都将使用与ec2实例关联的角色。做了大量搜索，发现了10多张门票，其中一些仍然开放，一些已经修复，一些没有任何评论。

想知道是否仍然可以将IAM角色用于放置在Hadoop集群上的作业(Spark、Hive、HDFS、Oozie等)。大多数教程都在讨论传递密钥(fs.s3a.access.key，fs.s3a.secret.key)，它不够好，也不安全。我们还面临着与Ambari的凭证提供商的问题。

一些参考文献：

https://issues.apache.org/jira/browse/HADOOP-13277

https://issues.apache.org/jira/browse/HADOOP-9384

https://issues.apache.org/jira/browse/SPARK-16363

您链接到HADOOP-13277的第一个消息说"我们可以拥有IAM吗？"JIRA已关闭该消息"您在s3a中拥有此消息"。第二个HADOOP-9384是"将IAM添加到S3n"，关闭为"切换到s3a"。SPARK-16363呢？错误报告不完整。

如果您使用S3a，并且没有设置任何机密，那么S3a客户端将返回到查看特殊的EC2实例元数据HTTP服务器，并尝试从那里获取机密。

它：它应该只是工作。

相关内容