我们正在开发一个安装了HAWQ的Greenplum。我想运行hadoop流媒体作业。然而,hadoop似乎没有配置或启动。如何启动mapred以确保可以使用hadoop流?
尝试以下命令获取字数:
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar
-input <inputDir>
-output <outputDir>
-mapper /bin/cat
-reducer /bin/wc
如果这给了你正确的字数,那么它的工作原理就是通过运行这个命令来检查错误
首先,确保集群已启动并正在工作。要使其进入数据透视命令中心(通常链接如下:https://<admin_node>:5443/
)并查看集群状态或要求管理员执行此操作。
接下来,请确保在您尝试开始工作的机器上安装了PHD客户端库。运行"rpm-qa | grep phd"
接下来,如果集群正在运行并且安装了库,则可以像这样运行流作业:
hadoop jar /usr/lib/gphd/hadoop-mapreduce/hadoop-streaming.jar -mapper /bin/cat -reducer /bin/wc -input /example.txt -output /testout
/example.txt文件应该存在于HDFS 上
我做了很久,Greenplum/Ppivotal Hadoop
--1.用于Instatlationicm_client部署例如,icm_client部署HIVE
--2.状态HDFS服务hadoop名称节点状态服务hadoop数据节点状态服务hadoop secondary名称节点状态MapRed服务hadoop作业跟踪器状态服务hadoop任务跟踪器状态蜂箱服务配置单元服务器状态服务配置单元元存储状态
--3.用于启动/停止/重新启动服务配置单元服务器启动服务配置单元服务器停止服务配置单元服务器重新启动
注意:您可以在安装指南中找到所有这些命令和详细信息,可以在hadoop安装指南的某个地方在线获得
谢谢,