我正在努力理解文档中所说的"TextInputFormat可以作为纯文本文件的输入格式。文件被分成几行。换行或回车用于表示行结束。键是文件中的位置,值是文本的行"
"职位"是什么意思?它是指文件中的行号吗?
文件中的给定数据
dobbs 2007 20 18 15
dobbs 2008 22 20 12
doctor 2007 545525 366136 57313
doctor 2008 668666 446034 72694
它会产生这样的地图输入吗?
(1, "dobbs 2007 20 18 15")
(2, "dobbs 2008 22 20 12")
(3, "doctor 2007 545525 366136 57313")
(4, "doctor 2008 668666 446034 72694")
在TextInputFormat中,键是文件中从文件开头到line
的byte offset
即,对于第一行,偏移量或关键字将为0
对于第二行,偏移或键将为length of first line
对于第三行,偏移将为offset of first line + length of first line
不,它不会像您预期的那样生成地图输入,(假设每个单词用一个空格分隔)它更像
(0,dobbs 2007 20 18 15)
(20,dobbs 2008 22 20 12)
(40,doctor 2007 545525 366136 57313)
(71,doctor 2008 668666 446034 72694)