新的 Ceoh 安装将无法恢复



我不确定这是否是提问的平台。但希望是:).

我有一个ceph的3个节点设置。

node1
mds.node1 , mgr.node1 , mon.node1 , osd.0 , osd.1 , osd.6
14.2.22
node2
mds.node2 , mon.node2 , osd.2 , osd.3 , osd.7
14.2.22
node3
mds.node3 , mon.node3 , osd.4 , osd.5 , osd.8
14.2.22

由于某种原因,当我关闭一个节点时,它根本不开始回填/恢复。它只报告了3个osd如下所示。但却无法修复....

如果我运行一个ceph -s,我得到以下输出:

[root@node1 testdir]# ceph -s
cluster:
id:     8932b76b-282b-4385-bee8-5c295af88e74
health: HEALTH_WARN
3 osds down
1 host (3 osds) down
Degraded data redundancy: 30089/90267 objects degraded (33.333%), 200 pgs degraded, 512 pgs undersized
1/3 mons down, quorum node1,node2
services:
mon: 3 daemons, quorum node1,node2 (age 2m), out of quorum: node3
mgr: node1(active, since 48m)
mds: homeFS:1 {0=node1=up:active} 1 up:standby-replay
osd: 9 osds: 6 up (since 2m), 9 in (since 91m)
data:
pools:   4 pools, 512 pgs
objects: 30.09k objects, 144 MiB
usage:   14 GiB used, 346 GiB / 360 GiB avail
pgs:     30089/90267 objects degraded (33.333%)
312 active+undersized
200 active+undersized+degraded
io:
client:   852 B/s rd, 2 op/s rd, 0 op/s wr
[root@node1 testdir]#

奇怪的是,当我再次启动我的第三个节点时,它确实恢复和同步。但它看起来像是在回填,只是根本没有开始……有什么可能引起这种情况吗?

我注意到的是,如果我把一个驱动器标记为out,它会恢复它…但是当服务器节点宕机,驱动器被标记为故障时,它根本无法恢复它…

更新2:我注意到,在实验时,如果OSD是up,但out,它确实恢复…当OSD被标记为down时,它根本不会开始恢复…

ceph默认等待10分钟,直到它将osd标记为out (mon_osd_down_out_interval)。如果服务器只需要重新启动并在10分钟内返回,那么一切都很好。如果你需要一个更长的维护窗口,但你不确定它是否会超过10分钟,但服务器最终会返回,设置ceph osd set noout以防止不必要的再平衡。

最新更新