小贝子编程

如果HDFS中的输入数据源不断增加，MapReduce作业会发生什么

本文关键字：作业 MapReduce 不断增加 HDFS 数据源如果 hadoop mapreduce
更新时间 : 2023-08-22
英文 : What would happen to a MapReduce job if input data source keep increasing in HDFS?

我们有一个与HDFS一起运行的日志收集代理，即该代理（如Flume）不断从一些应用程序收集日志，然后写入HDFS。读取和写入过程不间断地运行，导致HDFS的目标文件不断增加。

问题是，由于输入数据不断变化，如果我将收集代理的目标路径设置为作业的输入路径，MapReduce作业会发生什么？

FileInputFormat.addInputPath(job, new Path("hdfs://namenode:9000/data/collect"));

映射减少作业只处理开始时可用的数据。

Map Reduce用于批量数据处理。对于连续数据处理，请使用Storm或Spark Streaming等工具。

最新更新