基于时间的MapReduce数据拆分



我解析来自谷歌的mlabs数据,解析后的数据将为每个数据包提供文本记录。我想将数据拆分半小时,以便进入化简器的是半小时的数据。这是获取半小时数据的最佳方法还是有更好的方法。谁能建议我该怎么做。

解析后的数据将采用以下格式:

src            dest         startTime        endTime        bytesTransferred
34.456.67.88   23.456.78.9   3453453454555   3453453994555   4564

谢谢

您可以使用 30 分钟(1800 秒)纪元 timsestamp 的第一秒作为 Map 发出的键,该值是数据记录(或您关心的相同字段的解析字段)。

这样,在Reducer上将看到(键,List[DataRecord]),如下所示:

 (30-minute-interval-One-start-second) [(Data Record 1a, Data Record 1b, ... Data Record 1k)]
 (30-minute-interval-Two-start-second) [(Data Record 2a, Data Record 2b, ... Data Record 2k)]
...

最新更新