数据流作业失败并显示以下消息的最常见原因是什么:
The work item was attempted on these workers: wn-vlg-to-1vro-1606304136-11250335-91et-harness-n08k Root cause: The worker lost contact with the service.
我还观察到;拒绝分手"在工作日志中打印:
Refusing to split GroupedShuffleReader <dataflow_worker.shuffle.GroupedShuffleReader object at 0x7f6a231c4a90> at BZt9HwAB
job_id=";2020-11-25_04_58_21-4901626503823103758";
Dataflow作业失败的常见原因是"根本原因:工作人员与服务失去联系"是内存不足。
您可以使用类似[1]的高级过滤器来识别Stackdriver日志中的内存问题(也可以查看[2](。
可能的解决方案是使用管道选项--numberOfWorkerHarnessThreads
(或用于Python的--number_of_worker_harness_threads
(设置更高内存的工作机类型,或降低处理的并行性。
[1]
resource.type="dataflow_step"
resource.labels.job_id="YOUR_JOB_ID"
severity>=WARNING
("thrashing=true" OR "OutOfMemoryError" OR "Out of memory" OR "Shutting down JVM")
[2]https://cloud.google.com/logging/docs/view/advanced-queries#getting-启动