我想在 MR 运行期间过滤掉过时的记录并添加新记录。我计划编写一个映射器,它将从临时目录(新输入)和存储库目录(以前的结果)中读取记录。当映射器运行时,它将引入新的与旧的。如果映射器只写出时间戳小于 30 天的记录,并且我也使用存储库目录进行输出,新结果是否会覆盖旧结果,有效地添加新内容并删除过时的内容?我正在使用Java 1.7的Apache库。
它会抛出一个错误。Hadoop 不会输出到现有目录。它始终创建目录。因此,输出目录不得存在。如果是这样,它将引发错误。我假设您正在使用标准FileOutputFormat
或其某些扩展。