处理大量数据时缺少 flink 日志



我正在测试flink处理不同数据量的性能,所以我需要作业运行时来记录和分析。

当我使用 flink 处理像一万条记录这样的小数据集时,我可以得到如下作业运行时日志。

07/18/2017 17:41:47 DataSink (collect())(1/1) switched to FINISHED
07/18/2017 17:41:47 Job execution switched to status FINISHED.
Program execution finished
Job with JobID 3f7658725aaae8cd3427d2aad921f2ef has finished.
Job Runtime: 1124 ms
Accumulator Results:
- c28953fb854da74d18dc7c168b988ca2 (java.util.ArrayList) [15433 elements]

但是当我使用 flink 处理像五万条记录这样的大一点的数据集时,我无法获取作业运行时信息,如下所示,并且 shell 卡住了:

07/18/2017 17:49:33 DataSink (collect())(1/1) switched to FINISHED
07/18/2017 17:49:33 Job execution switched to status FINISHED.

我需要修改任何配置吗?

为什么当数据集更大时外壳卡住?

希望有人能回答我的疑问。谢谢~

Flink 使用 Akka 进行远程通信,累加器结果作为单个消息发送回客户端。 Akka 施加了最大消息大小,您可能正在达到限制。 几点建议:

  1. 检查作业管理器日志中与 Akka 相关的错误消息。
  2. 通过 Flink 配置增加最大大小,例如akka.framesize. 有关更多信息,请参阅 Flink 文档。

相关内容

  • 没有找到相关文章

最新更新