我有一个外部ORC表,其中包含大量小文件,这些文件每天都来自源代码。我需要将这些文件合并到更大的文件中。
我尝试将ORC文件加载到火花并使用覆盖方法保存
val fileName = "/user/db/table_data/" //This table contains multiple partition on date column with small data files.
val df = hiveContext.read.format("orc").load(fileName)
df.repartition(1).write.mode(SaveMode.Overwrite).partitionBy("date").orc("/user/db/table_data/)
但是mode(SaveMode.Overwrite)
正在从HDFS中删除所有数据。当我尝试没有mode(SaveMode.Overwrite)
方法时,它抛出的错误文件已经存在。
谁能帮我继续?
按照@Avseiytsev的建议,我将合并的orc文件存储在不同的文件夹中作为HDFS中的源,并在作业完成后将数据移动到表路径。