我有一个文件,其中包含文本格式的IP数据包标头。
在映射函数之后,为特定的 IP 地址调用每个 reduce 方法。我希望值按排序顺序排列,但它们没有排序。该值基本上是一行,其中有时间戳。我希望reduce中的所有值都按时间戳排序。
请帮我在哪里进行排序。
Hadoop MapReduce有一个名为"Secondary Sort"的功能,它可以做你想要的。
"Hadoop the definitive guide"一书在这个主题上有一个很好的章节。