如何修复此问题?
/tmp/hadoop-yarn/staging/ubuntu/.staging/job_1450038005671_0025/job.jar: Under replicated BP-938294433-10.0.1.190-1450037861153:blk_1073744219_3398. Target Replicas is 10 but found 3 replica(s).
当我在主节点中运行hadoop fsck /
时,我会得到这个。我想我应该在conf或类似的文件中更改一个.xml
文件——我只是不知道该更改哪个文件。
注意,hdfs-site.xml
中的dfs.replication
已经被设置为3。我的hdfs-site.xml
文件中没有dfs.replication.max
。
作为作业一部分提交的文件(jar等)的复制计数由mapred-site.xml中的参数mapreduce.client.submit.file.replication
(或2.4之前的集群中的mapred.submit.replication
)控制。对于小于10个节点的集群,您可以将其向下调整,也可以忽略fsck的消息。
FWIW,这是一个JIRA,但我怀疑它是否会奏效。
您可以忽略/tmp/hoop-syarn/tasting/ubuntu/.tasting/job_1450038005671_0025/job.jar,它是一个作业资源。dfs.replication对作业资源没有影响。
- 作业资源,如jar文件、使用-files传递的文件(分布式缓存)将使用10作为复制因子复制到HDFS
- 当作业运行时,这些作业资源(代码)将被复制到容器/任务中以处理数据
- 一旦作业根据阈值完成,这些资源将自动回收
此功能有助于在处理数据时实现数据局部性(代码指向数据的位置)。
HDFS配置文件hdfs-site.xml
应包含描述块复制因子的dfs.replication
属性:
<configuration>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>
默认hdfs-site.xml
位置为/etc/hadoop/hdfs-site.xml