我有一个使用拼花输入格式的数据流,我想获得每个项目的文件名。这样我就可以更新记录的文件。我该怎么做呢?
DataStream eventStream = streamExecutionEnvironment。readFile(parquetInputFormat, path, FileProcessingMode)PROCESS_CONTINUOUSLY, 20000);
当我们希望时间戳是目录结构的一部分时,我们必须做这样的事情,但是用于批处理。我们的方法是扩展输入格式类(在本例中是HadoopInputFormat
),在open()
调用中,我们可以使用输入分割参数来获取文件名。由于我们返回的是Tuple2<LongWritable, Text>
,并且没有使用LongWritable
(文件偏移位置),因此我们提取并将时间戳填充到结果的第一个字段中。
我假设您可以扩展ParquetInputFormat
类并做类似的事情。