我们正在运行一个flink集群3个节点,S3作为状态后端。我们注意到,运行几周后,其中一个作业开始失败,检查点失败。在这一点上,我们还松开了集群的"Web UI"控制台,这样我们就可以取消失败的作业,并通过UI控制台重新启动它。由于Web UI Rest调用正在为/jars端点抛出500个错误。此时,我们需要重新启动集群并重新提交作业以从错误中恢复。对此的任何见解都将有所帮助。Flink版本为1.3.1
以下是的错误列表
org.apache.http.NoHttpResponseException:mybucket.s3.amazonaws.com:443未能响应
org.apache.hhttp.NoHttpResponse Exception:mybucket.s3.amasonaws.com:443未能响应
org.apache.http.NoHTTP ResponseException:mybucket.s4.amazonaws.com:443未能响应
java.lang.Exception:异步函数调用终止,出现异常。AsyncWaitOperator失败
原因:java.util.concurrent.ExecutionException:java.util.current.TimeoutException:异步函数调用超时
原因:java.util.concurrent.TimeoutException:异步函数调用超时
java.lang.Exception:异步函数调用因异常而终止。AsyncWaitOperator失败
原因:java.util.concurrent.ExecutionException:java.util.current.TimeoutException:异步函数调用超时
原因:java.util.concurrent.TimeoutException:异步函数调用超时
java.io.FileNotFoundException:/tmp/flink-io-7c72ca50-3b57-4a11-940-f88a52b25407/361dc299a5660bf46f35c98cc55a000dab0b6b23eb050cd42791f54127ec3c5.0.buffer(没有这样的文件或目录)
java.io-FileNotFoundException:/tmp/frink-io-7c 72ca50-3-b57-4a1-940-f88 a52b225407/c235988e4448b0649b609261fff311be685205cc7394eb9a0cb66c958198ca6c.0.buffer
java.io.FileNotFoundException:/tmp/flink-io-7c72ca50-3b57-4a11-940-f88a52b25407/361dc299a5660bf46f35c98cc55a000dab0b6b23eb050cd42791f54127ec3c5.0.buffer(没有这样的文件或目录)
java.io-FileNotFoundException:/tmp/frink-io-9d166a0f-82d7-4fd0-b0de-55c06efbe9e2/8fd69bc697889096d9d7f559514dcb655c3d0f72f729870fe32d21c8f4c59b6.0.buffer没有这样的文件或目录)
java.io.FileNotFoundException:/tmp/flink-io-9d166a0f-82d7-4fd0-b0de-55c06efbe9e2/8fd69bc697889096d9d7f5595144dcb655c3d0f72f729870fe32d21c8f4c59b6.0.buffer(没有这样的文件或目录)
java.io-FileNotFoundException:/tmp/frink-io-e85870 d4-9214-4d52-bdfd-0a000fc08d459/6851a1a013bdf007587e023a880d799ab11aofee5a2cb12cc411f94132c7114b.0.buffer r(没有这样的文件或目录)
java.io.FileNotFoundException:/tmp/flink-io-e85870d4-9214-4d52-bdfd-0a00fc08d459/dc36c57d88c098e78733a2d376c6599b18ef47d12575bdfd3ece47908f6bb8d3.0.buffer没有这样的文件或目录)
java.io.FileNotFoundException:/tmp/flink-io-7c72ca50-3b57-4a11-940-f88a52b25407/a92bffa6cc199b7ba29ebfcac5db914cc83291da3edf53ff3d59cdd0abf66e4b.0.buffer文件或目录)
java.io.FileNotFoundException:/tmp/flink-io-9d166a0f-82d7-4fd0-b0de-55c06efbe9e2/53327713f638a37d59cc0a4e72e763229e91e50d1767af8608fb0418f2fb39.0.buffer目录)
java.io.FileNotFoundException:/tmp/flink-io-9d166a0f-82d7-4fd0-b0de-55c06efbe9e2/0e9ca7e5a82fce473fb6ffb698a59e05fea25e97bc0b67c226b893f25c56a176.0.buffer(没有这样的文件或目录)
java.io-FileNotFoundException:/tmp/frink-io-e85870d4-9214-4d52-bdfd-0a00fc08d459/6cbdd10df09fc93793d94d6b1eb7cd21f2839b92c380796aaf27d56f02 f.0.buffer(没有这样的文件或目录)
java.io.FileNotFoundException:/tmp/flink-io-e85870d4-9214-4d52-bdfd-0a00fc08d459/6c7bdd10df09fc93793d94d6b1aeb7cd21f2839b92c380796aaf27d56f02f.0.buffer或目录)
java.io.FileNotFoundException:/tmp/flink-io-7c72ca50-3b57-4a11-940-f88a52b25407/cb4062b597c2b31a1e57b51e1ce993fca80aff6dc41ed4164a61f9f86171c96.0.buffer(没有这样的文件或目录)
java.io-FileNotFoundException:/tmp/frink-io-9d166a0f-82d7-4fd0-b0de-55c06efbe9e2/704e543afb61a45f1e5d0fb919422514e6634feef72224803b6213d4bad30e1.0.buffer(没有这样文件或目录)
java.io.FileNotFoundException:/tmp/flink-io-9d166a0f-82d7-4fd0-b0de-55c06efbe9e2/704e543afb61a45f1e5d0fb919422514ee6634feef72224803b6213d4bad30e1.0.buffer(没有这样的文件或目录)
java.io.FileNotFoundException:/tmp/flink-io-e85870 d4-9214-4d52-bdfd-0a00fc08d459/5d242870ca414f84c0a172ceae717ca3a018ec707e9ea36b510c6bcacfa05b6.0.buffer(没有这样的文件或目录)
java.io.FileNotFoundException(没有这样文件或目录的):/tmp/flink-io-7c72ca50-3b57-4a11-940-f88a52b225407/f8e8def8cf4fe486136672e2c06aff2e1f666522b031d80d09e7c944aa5
2018-06-05 15:51:54505〔myid:3〕-信息〔进程线程(sid:3cport:-1)::PrepRequestProcessor@648]-处理会话时获得用户级别的KeeperException ID:0x33673530d74e005类型:create cxid:0x139 zxid:0x100111017 txntype:-1 reqpath:n/a错误路径:/flink/default/checkpoints/c3bfe1335ad19483b758a09c7044b0a20000000000000152470/0d6c7449-6a3e-4b46-a4c2-9e29a93841c5错误:KeeperErrorCode=NodeExists for/flink/default/checkpoints/c3bfe1335ad19483b758a09c7044b0a20000000000000152470/0d6c7449-6a3e-4b46-a4c2-9e29a93841c5EndOfStreamException:无法从客户端会话读取其他数据0x33673530d74e005,可能客户端已关闭套接字2018-06-05 15:55:40024〔myid:3〕-信息〔进程线程(sid:3cport:-1)::PrepRequestProcessor@648]-处理会话时获得用户级KeeperException ID:0x16375313e4d0000类型:create cxid:0xf5 zxid:0x100111060 txntype:-1 reqpath:n/a错误路径:/flink/default/checkpoint counter/68139a9b7a561ed5099402f5579edd64错误:KeeperErrorCode=NodeExists for/flink/default/checkpoint计数器/68139a9b7b561ed509940 2f5579ed642018-06-05 15:55:40120〔myid:3〕-信息〔进程线程(sid:3cport:-1)::PrepRequestProcessor@648]-处理会话时获得用户级KeeperException ID:0x16375313e4d0000类型:create cxid:0xc4 zxid:0x100111062 txntype:-1 reqpath:n/a错误路径:/flink/default/checkpoint counter/1d84f8bbb75ab8325cf46c1f12b9a1a2错误:KeeperErrorCode=NodeExists for/flink/default/checkpoint计数器/1d84f8bb 75ab8325cf46c1f12b09a1a22018-06-05 15:55:40189〔myid:3〕-信息〔进程线程(sid:3cport:-1)::PrepRequestProcessor@648]-处理会话时获得用户级KeeperException ID:0x16375313e4d0000类型:create cxid:0xd3 zxid:0x100111064 txntype:-1 reqpath:n/a错误路径:/flink/default/checkpoint counter/164209b48b68d3f9e07f205ffe23706a错误:KeeperErrorCode=NodeExists for/flink/default/checkpoint计数器/1640209b68d3f3f9e07 f205ffe237 06a2018-06-05 15:55:40226〔myid:3〕-信息〔进程线程(sid:3cport:-1)::PrepRequestProcessor@648]-处理会话时获得用户级KeeperException ID:0x16375313e4d0000类型:create cxid:0xe2 zxid:0x100111066 txntype:-1 reqpath:n/a错误路径:/flink/default/checkpoint-
Flink 1.3.1已知存在检查点问题。我不确定1.3.2和1.3.3中修复的一个或多个错误是否解释了您遇到的问题,但这似乎很有可能。
重新启动任务管理器
他们中的一些人可能被绞死了,所以你可能不得不强行杀死他们