命令"hadoop namenode -format"将执行的操作



我正在尝试通过遵循教程并尝试在我的机器上执行伪分布式模式来学习Hadoop。

core-site.xml是:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://localhost:9000</value>
      <description>The name of the default file system. A URI whose scheme and authority determine the FileSystem implementation.       
      </description>   
   </property>
</configuration>

我的hdfs-site.xml文件是:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
      <description>The actual number of replications can be specified when the
        file is created.
      </description>
   </property>
</configuration>

我的mapred-site.xml文件是:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
   <property>      
      <name>mapred.job.tracker</name>
      <value>localhost:9001</value>
      <description>The host and port that the MapReduce job tracker runs
        at.
      </description>
   </property>
</configuration>

当我运行命令时,它成功运行,但它实际上在做什么:

hadoop-1.2.1$ bin/hadoop namenode -format
14/11/26 12:37:16 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = myhost/127.0.0.8
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 1.2.1
STARTUP_MSG:   build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.2 -r 1503152; compiled by 'mattf' on Mon Jul 22 15:23:09 PDT 2013
STARTUP_MSG:   java = 1.6.0_45
************************************************************/
14/11/26 12:37:17 INFO util.GSet: Computing capacity for map BlocksMap
14/11/26 12:37:17 INFO util.GSet: VM type       = 64-bit
14/11/26 12:37:17 INFO util.GSet: 2.0% max memory = 932118528
14/11/26 12:37:17 INFO util.GSet: capacity      = 2^21 = 2097152 entries
14/11/26 12:37:17 INFO util.GSet: recommended=2097152, actual=2097152
14/11/26 12:37:17 INFO namenode.FSNamesystem: fsOwner=myuser
14/11/26 12:37:17 INFO namenode.FSNamesystem: supergroup=supergroup
14/11/26 12:37:17 INFO namenode.FSNamesystem: isPermissionEnabled=true
14/11/26 12:37:17 INFO namenode.FSNamesystem: dfs.block.invalidate.limit=100
14/11/26 12:37:17 INFO namenode.FSNamesystem: isAccessTokenEnabled=false accessKeyUpdateInterval=0 min(s), accessTokenLifetime=0 min(s)
14/11/26 12:37:17 INFO namenode.FSEditLog: dfs.namenode.edits.toleration.length = 0
14/11/26 12:37:17 INFO namenode.NameNode: Caching file names occuring more than 10 times 
14/11/26 12:37:17 INFO common.Storage: Image file /tmp/hadoop-myuser/dfs/name/current/fsimage of size 115 bytes saved in 0 seconds.
14/11/26 12:37:18 INFO namenode.FSEditLog: closing edit log: position=4, editlog=/tmp/hadoop-myuser/dfs/name/current/edits
14/11/26 12:37:18 INFO namenode.FSEditLog: close success: truncate to 4, editlog=/tmp/hadoop-myuser/dfs/name/current/edits
14/11/26 12:37:18 INFO common.Storage: Storage directory /tmp/hadoop-myuser/dfs/name has been successfully formatted.
14/11/26 12:37:18 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at chaitanya-OptiPlex-3010/127.0.0.8
************************************************************/

有人可以让我知道它在内部做什么。

我已经浏览了这些帖子,但没有正确的解释。

Hadoop名称节点格式到底是什么?

Hadoop 名称节点未格式化

如何在我的机器上实际检查这一点,以便我可以查看运行命令之前和之后的差异。我是Hadoop的新手,所以这可能是一个微不足道的问题。

hadoop namenode -format此命令会删除 hdfs 中的所有文件。

TMP 目录包含两个文件夹 datanode,本地文件系统中的 namenode。如果格式化 Namenode,这两个文件夹将变为空。

注意:如果要格式化名称节点,请先停止所有Hadoop服务,然后删除本地文件系统中的tmp(包含namenode和数据节点)文件夹并启动Hadoop服务,它肯定会生效。

Hadoop namenode -format 的原因:

Hadoop NameNode是HDFS文件系统的集中位置,它保存文件系统中所有文件的目录树,并跟踪文件数据在整个集群中的保存位置。简而言之,它保留与数据节点相关的元数据。当我们格式化名称节点时,它会格式化与数据节点相关的元数据。这样,数据节点上的所有信息都将丢失,并且可以将其重用于新数据。

默认情况下,namenode 位置将位于"/tmp/hadoop-myuser/dfs/name"

格式化名称节点时,此文件位置已被清除。

更改名称节点位置,请在 hdfs-site 添加以下属性.xml

<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:/search/data/dfs/namenode</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:/search/data/dfs/datanode</value>
</property>

我希望这会对你有所帮助。 :-)

Hadoop namenode -format

  • Hadoop namenode 目录包含 fsimage 和编辑文件,保存有关Hadoop文件系统的基本信息,例如在哪里可用数据,哪个用户创建了这样的文件

  • 如果您格式化名称节点,则上述信息将被删除从 HDFS-site 中指定的 namenode 目录.xml作为dfs.namenode.name.dir

  • 但是你仍然有 hadoop 上的数据,但没有 namenode 元数据

实际上格式化 Namenode 不会格式化数据节点。

它只会格式化您的名称节点的内容(其中包含数据节点的详细信息)。您的名称节点将不再知道您的数据在哪里。此外,namenode -format 将为 namenode 分配一个新的命名空间 ID

您必须更改数据节点中的命名空间 ID 才能使数据节点正常工作。这将在 dfs/data/current/VERSION

现在有一个 JIRA 打开,用于在格式化 Namenode 时也格式化数据节点。HDFS-107

Namenode包含有关Hadoop文件系统的元数据。

这个命令(hadoop-1.2.1$ bin/hadoop名称node-format)将格式化整个Hadoop分布式文件系统(HDFS)。因此,如果您在现有文件系统上运行此命令,您将丢失所有数据。

步骤使用 "start-all.sh" 启动所有服务

检查服务是否正在运行"JPS"注意:如果您使用 Hadoop2.3.0,则需要运行以下服务

Namenode
Datanode
Resourcemanager
Nodemanager

使用 hdfs 将一些文件从本地移动到 HDFS -put/

现在检查位置"/tmp/hadoop-myuser/dfs/name",您可能会发现此文件拆分为一些块,每个块连接64 MB。

然后开始使用**hadoop namenode -format**格式化现在该文件在该位置物理上不可用

更多信息请点击这里

最新更新