为 S3 提供基于 Hadoop/Spark IAM 角色的访问的正确方法是什么?



我们在EC2上运行Hadoop集群,EC2实例连接到一个可以访问S3 bucket的角色,例如:"stackoverflow example"。

有几个用户正在集群中放置Spark作业,我们过去使用了密钥,但不想继续,希望迁移到角色,所以放置在Hadoop集群上的任何作业都将使用与ec2实例关联的角色。做了大量搜索,发现了10多张门票,其中一些仍然开放,一些已经修复,一些没有任何评论。

想知道是否仍然可以将IAM角色用于放置在Hadoop集群上的作业(Spark、Hive、HDFS、Oozie等)。大多数教程都在讨论传递密钥(fs.s3a.access.key,fs.s3a.secret.key),它不够好,也不安全。我们还面临着与Ambari的凭证提供商的问题。

一些参考文献:

https://issues.apache.org/jira/browse/HADOOP-13277

https://issues.apache.org/jira/browse/HADOOP-9384

https://issues.apache.org/jira/browse/SPARK-16363

您链接到HADOOP-13277的第一个消息说"我们可以拥有IAM吗?"JIRA已关闭该消息"您在s3a中拥有此消息"。第二个HADOOP-9384是"将IAM添加到S3n",关闭为"切换到s3a"。SPARK-16363呢?错误报告不完整。

如果您使用S3a,并且没有设置任何机密,那么S3a客户端将返回到查看特殊的EC2实例元数据HTTP服务器,并尝试从那里获取机密。

它:它应该只是工作。

相关内容

  • 没有找到相关文章

最新更新