是否要将数据集对象写入ORC文件?我知道使用AvroOutputFormat
可以将数据集对象写为avro文件,但看起来orc没有等效的类?
如果不能实现,有没有办法将数据集转换为表或数据流?
我问的原因是我必须使用数据集API,因为它支持读取多个文件。像这个
AvroInputFormat<MyType> avroInputFormat = new AvroInputFormat<>(....
avroInputFormat.setFilePaths(<file paths list>)
DataSet<MyType> dataset = env.createInput(avroInputFormat);
这会奏效的。然而,若我使用DataStream API,它将抛出异常作为
Caused by: java.lang.IllegalArgumentException: FileInputFormats with multiple paths are not supported yet.
如有任何建议,我们将不胜感激。谢谢
Flink的数据集API已弃用。您应该在批处理模式下使用DataStream API或在批处理方式下使用Table API。如果你把所有文件都放在一个文件夹中,你可以提供该文件夹的路径作为输入,然后两者都会读取其中的所有文件。如果您有不同的文件路径,最好创建一个Jira票证,并为此发出功能请求。