Flink-如何将数据集写入orc文件



是否要将数据集对象写入ORC文件?我知道使用AvroOutputFormat可以将数据集对象写为avro文件,但看起来orc没有等效的类?

如果不能实现,有没有办法将数据集转换为表或数据流?

我问的原因是我必须使用数据集API,因为它支持读取多个文件。像这个

AvroInputFormat<MyType> avroInputFormat = new AvroInputFormat<>(....
avroInputFormat.setFilePaths(<file paths list>)
DataSet<MyType> dataset = env.createInput(avroInputFormat);

这会奏效的。然而,若我使用DataStream API,它将抛出异常作为

Caused by: java.lang.IllegalArgumentException: FileInputFormats with multiple paths are not supported yet.

如有任何建议,我们将不胜感激。谢谢

Flink的数据集API已弃用。您应该在批处理模式下使用DataStream API或在批处理方式下使用Table API。如果你把所有文件都放在一个文件夹中,你可以提供该文件夹的路径作为输入,然后两者都会读取其中的所有文件。如果您有不同的文件路径,最好创建一个Jira票证,并为此发出功能请求。

相关内容

  • 没有找到相关文章

最新更新