如何在flink数据流中获取parquet文件的文件名



我有一个使用拼花输入格式的数据流,我想获得每个项目的文件名。这样我就可以更新记录的文件。我该怎么做呢?

DataStream eventStream = streamExecutionEnvironment。readFile(parquetInputFormat, path, FileProcessingMode)PROCESS_CONTINUOUSLY, 20000);

当我们希望时间戳是目录结构的一部分时,我们必须做这样的事情,但是用于批处理。我们的方法是扩展输入格式类(在本例中是HadoopInputFormat),在open()调用中,我们可以使用输入分割参数来获取文件名。由于我们返回的是Tuple2<LongWritable, Text>,并且没有使用LongWritable(文件偏移位置),因此我们提取并将时间戳填充到结果的第一个字段中。

我假设您可以扩展ParquetInputFormat类并做类似的事情。

相关内容

  • 没有找到相关文章

最新更新