Hadoop Mapreduce:TextInputFormat:位置的含义



我正在努力理解文档中所说的"TextInputFormat可以作为纯文本文件的输入格式。文件被分成几行。换行或回车用于表示行结束。键是文件中的位置,值是文本的行"

"职位"是什么意思?它是指文件中的行号吗?

文件中的给定数据

  dobbs   2007      20      18     15
  dobbs   2008      22      20     12
  doctor  2007  545525  366136  57313
  doctor  2008  668666  446034  72694

它会产生这样的地图输入吗?

  (1,  "dobbs   2007    20  18  15")
  (2,  "dobbs   2008    22  20  12")
  (3,  "doctor  2007    545525  366136  57313")
  (4,  "doctor  2008    668666  446034  72694")

在TextInputFormat中,键是文件中从文件开头到linebyte offset

即,对于第一行,偏移量或关键字将为0对于第二行,偏移或键将为length of first line
对于第三行,偏移将为offset of first line + length of first line

不,它不会像您预期的那样生成地图输入,(假设每个单词用一个空格分隔)它更像

(0,dobbs 2007 20 18 15)
(20,dobbs 2008 22 20 12)
(40,doctor 2007 545525 366136 57313)
(71,doctor 2008 668666 446034 72694)

相关内容

  • 没有找到相关文章

最新更新