我看到Impala 2.3仅在Cloudera CDH 5.5及更高版本上受支持。Impala 2.2 可以安装在 Amazon EMR 上,因为 GitHub 上有可用的 Bootstrap 脚本,您不需要安装 Cloudera。
但是,我没有看到任何方法可以在Amazon EMR上安装Cloudera CDH 5.5或5.6。我想安装 Impala 2.3,那么有什么方法可以在 Amazon EMR 上安装 Impala 2.3?
好吧,只要"不提供问题的答案",我之前的答案就被删除了。我不会争论这个问题是否有部分不正确的答案更好,或者在没有根据的情况下提出明确主张是否是一个很好的答案:/。
无论如何,我不会放弃:)
是的,可以在纸上安装"任何东西"。
启动 EMR 集群后,所有实例都将显示在您的 EC2 控制台上。唯一的问题是,您必须小心分配正确的权限以通过SSH访问您的实例。我的建议是创建一个具有访问权限的特定安全组,并使用集群的高级配置将此额外的安全组分配给实例。通过正确的配置,您可以 ssh 到任何实例并安装任何内容(如果您有正确的 VPC 配置,您应该能够 scp 任何文件或从互联网下载)。请注意,用户将是"hadoop"而不是"ec2-root",但这记录在 EMR 用户指南中。
请记住,集群处于"已终止"状态,因此 EMR 实例是易失性的,并且安装不会在集群终止后继续存在。
另一方面,使用最新版本的 EMR AMI 和 AWS 的最新功能(我认为一直都是这样,但现在没关系了),您应该能够在引导程序上创建一些操作并安装您想要的任何内容。
使用集群的"高级配置",您可以访问要在集群上执行的"引导"操作。您甚至可以根据节点类型(主节点、核心节点、任务)执行不同的操作。您应该将脚本(和/或 jar 文件)存储在 S3 存储桶上,并使此存储桶可供您的集群使用。在纸面上,您可以在这些包含 EMR 集群的 EC2 实例上安装 Impala,但我不确定这是否有效。
有关更多信息,您可以阅读 http://docs.aws.amazon.com//emr/latest/ManagementGuide/emr-plan-bootstrap.html
对于以前版本的 EMR AMI 而不是最新版本的 Impala,您可以阅读 https://github.com/awslabs/emr-bootstrap-actions/tree/master/impala
谢谢马克,你迫使我更好地阐述我的评论。
不,不可能在 EMR 上"安装"任何东西,因为它是 AWS 提供的 PaaS。但是,如果您的目标是在 AWS 上运行较新版本的 Impala,则可以使用用于安装 CDH 5.x(包括 Impala)的 AWS 快速入门路径,使该过程相对容易。
http://aws.amazon.com/quickstart/