Hadoop定期生成文件

我想使用Hadoop来处理每n分钟生成的输入文件。我该如何处理这个问题?例如，我每10分钟收到美国城市的温度测量值，我想计算每周和每月每天的平均温度。

PS:到目前为止，我已经考虑Apache Flume来获取读数。它将从多个服务器获取数据，并定期将数据写入HDFS。从那里我可以阅读和处理它们。

但是我怎样才能避免一次又一次地处理相同的文件呢?

你应该考虑像Storm这样的大数据流处理平台(我非常熟悉，但也有其他平台)，它可能更适合你提到的聚合和指标。

然而，无论哪种方式，你都要实现一些东西，它以一种形式包含了整个处理过的数据集，这使得应用刚刚收集的数据的增量来给出你的最新指标非常容易。合并的另一个输出是一组新的数据，您将对其应用下一个小时的数据。等等

相关内容