Flink检查站卡在坏文件上



我是Flink的新手(1.3.2(,我有一个问题,想看看是否有人可以在这里提供帮助。

因此,我们有一个S3路径,Flink正在监视该路径以查看可用的新文件。

val avroInputStream_activity = env.readFile(format, path, FileProcessingMode.PROCESS_CONTINUOUSLY, 10000)  

我同时进行内部和外部检查指向,假设有一个不好的文件来到路径上,flink将进行多次重试。我想将这些不良文件带到一些错误文件夹中,并让过程继续。但是,由于文件路径在检查点中持续存在,所以当我尝试从外部检查点恢复(我删除了不良文件(时,它在找不到文件时丢下以下错误。

java.io.IOException: Error opening the Input Split s3a://myfile [0,904]: No such file or directory: s3a://myfile

我在这里有两个问题:

  1. 人们如何处理诸如坏文件或记录之类的例外。
  2. 有没有办法跳过这个不好的文件并从检查点继续?

预先感谢。

最佳实践是通过捕获任何例外(例如由不良输入数据引起的例外(来保持工作运行。然后,您可以使用侧面输出创建仅包含不良记录的输出流。例如,您可以将它们发送到存储桶文件接收器进行进一步分析。

相关内容

  • 没有找到相关文章

最新更新