我们可以将输出结果附加到不同MR作业的相同HDFS位置吗?



我们可以将不同MR作业的输出结果附加到一个特定的HDFS中吗?该HDFS已经有了以前某个MR作业的一些数据。我之所以这么问,是因为我正在运行一个批处理过程,我想在一个遵循CSV格式的单个输出文件中获得所有MR作业的输出,这样我就可以一次加载配置单元表。

如何运行map reduce作业?您可以指定输出目录,以防使用hadoop流和pig。至于hive,创建一个指向目录的外部表——无论是一个大文件还是一组小文件都无关紧要。

相关内容

  • 没有找到相关文章

最新更新