我必须在Amazon EC2集群上运行hadoop mapreduce作业。
我尝试了使用现有AMI的设置。但是在启动主节点和客户端之后,"jps"并没有列出任何节点。
所以即使在使用公共hadoop AMI之后,我们也必须为主和从做hadoop设置吗?主人怎么知道奴隶的IP地址??
谁能告诉我一些好的文件。我已经绞尽脑汁想了12个多小时了。有人能帮忙吗?
谢谢。
Matthew建议的另一个替代方法是使用Whirr。
Whirr使得在Amazon上部署Hadoop集群非常容易,而且您不必为mapreduce实例付费。你可以控制集群的版本。
项目主页:http://whirr.apache.org/
这里是安装Hadoop的快速入门指南。运行一个Hadoop集群大约需要5分钟。http://whirr.apache.org/docs/0.6.0/quick-start-guide.html
我会使用Amazon的Elastic MapReduce框架。你可以动态地上下旋转机器&集群都是一样的,你不必担心配置它们来相互通信。
http://aws.amazon.com/elasticmapreduce/它被很多人使用,而且大多数都是可靠的。它将为您节省大量通常用于设置和管理集群的工作。只有一点与常规hadoop不同——最好把东西放在S3而不是HDFS(因为集群是暂时的,所以HDFS的数据会随着集群一起消失)。