我是hadoop的新手,对map reduce有基本的了解,map函数的输入将是键和值对。那么我该如何判断我的句子何时完成,以及如何计算它。它的默认输入格式是TextInput格式,可以使用,或者我们可以使用其他的输入格式,以更简单的方式做到这一点。
我想你只是检查行中的句号。决定是否忽略省略(…),等等。然后,当每一行被传递给map()方法时,您将为上下文编写一个键/值,计算那些合法的周期。结束一个句子的定义是你的呼唤。这样做的逻辑应该很简单。
您可以使整个句子一次一个地传递给map()方法,但这要困难得多。您基本上采用相同的逻辑并将其放入新的输入格式类型和相应的RecordReader中。如果有选择的话,使用map()方法中的逻辑,而不是输入格式类型和记录读取器。