我想使用Hadoop来处理每n分钟生成的输入文件。我该如何处理这个问题?例如,我每10分钟收到美国城市的温度测量值,我想计算每周和每月每天的平均温度。
PS:到目前为止,我已经考虑Apache Flume来获取读数。它将从多个服务器获取数据,并定期将数据写入HDFS。从那里我可以阅读和处理它们。
但是我怎样才能避免一次又一次地处理相同的文件呢?
你应该考虑像Storm这样的大数据流处理平台(我非常熟悉,但也有其他平台),它可能更适合你提到的聚合和指标。
然而,无论哪种方式,你都要实现一些东西,它以一种形式包含了整个处理过的数据集,这使得应用刚刚收集的数据的增量来给出你的最新指标非常容易。合并的另一个输出是一组新的数据,您将对其应用下一个小时的数据。等等