如果HDFS中的输入数据源不断增加,MapReduce作业会发生什么



我们有一个与HDFS一起运行的日志收集代理,即该代理(如Flume)不断从一些应用程序收集日志,然后写入HDFS。读取和写入过程不间断地运行,导致HDFS的目标文件不断增加。

问题是,由于输入数据不断变化,如果我将收集代理的目标路径设置为作业的输入路径,MapReduce作业会发生什么?

FileInputFormat.addInputPath(job, new Path("hdfs://namenode:9000/data/collect"));

映射减少作业只处理开始时可用的数据。

Map Reduce用于批量数据处理。对于连续数据处理,请使用Storm或Spark Streaming等工具。

最新更新