我们有一个与HDFS一起运行的日志收集代理,即该代理(如Flume)不断从一些应用程序收集日志,然后写入HDFS。读取和写入过程不间断地运行,导致HDFS的目标文件不断增加。
问题是,由于输入数据不断变化,如果我将收集代理的目标路径设置为作业的输入路径,MapReduce作业会发生什么?
FileInputFormat.addInputPath(job, new Path("hdfs://namenode:9000/data/collect"));
映射减少作业只处理开始时可用的数据。
Map Reduce用于批量数据处理。对于连续数据处理,请使用Storm或Spark Streaming等工具。