我在mapr集群中以本地模式使用dask-yarn
。我已经在节点之间的共享文件夹中解压缩了虚拟环境。有时工作程序(容器(在集群中正确启动,但有时容器会在yarn中出现下一条错误消息。
/usr/bin/env: 'python3.6': No such file or directory
与此同时,我看到许多容器的状态为FAILED(>1000(。我最初的供应大约是5名工人,但我必须等待大约10分钟或更长时间,直到我得到最初的供应。
下一个是我的/etc/dask/yarn.yaml
配置
yarn:
specification: null
name: dask
queue: default
deploy-mode: local
environment: "venv://<shared_location>"
tags: []
user: ''
host: "host_name"
port: 8788
dashboard-address: ":17439"
scheduler:
vcores: 1
memory: 2GiB
worker:
vcores: 1
memory: 2GiB
restarts: -1
env: {'SOME_VAR':'some_value'}
问题原因:一些节点的python版本不相同,位置也不相同。因为我使用的是虚拟环境。虚拟环境预期在所有节点中的同一位置都有python