我试过什么：

Ceph OSD 存储池创建新池 128 128 擦除我的个人资料

拉多斯 --pool newpool 把一个对象文件 ==> 此块

Ceph PG ls-by-pool newpool 不完整 ==> 我所有的 PG 都列了

Ceph 第 15.1 页查询 ==>状态 ;"正在创建+未完成" "up"和"acting"仅包含OSD '1'作为第一个元素，在所有其他位置包含'null'(2147483647)。

请注意，我的平台上的 osd '1' 是加载最多的一个(它的 PG 数量几乎是其他 OSD 的两倍)

完整上下文

夜光 12.2.0 (Ubuntu 16.04) 从宝石迁移而来
现有纠删池具有非常降级的情况(所有 OSD 现在都已启动，但 83% 的对象放错了位置，13% 的对象降级了)
恢复时间估计为一年
我的擦除配置文件是 12 + 3

==> 我想开始在一个新的"干净"池中写作，而现有的池将慢慢恢复。

=======================================Ceph 状态

簇：编号： B5ee2A02-B92C-4829-8D43-0EB17314C0F6 生命值： HEALTH_WARN 1314118857/1577308005 物体错放 (83.314%) 数据可用性降低：10 页处于非活动状态，10 页不完整数据冗余降级：203997294/1577308005 个对象降级 (12.933%)，492 个 pgs 不干净，342 个 pgs 降级，279 pgs 尺寸不足

服务业：星期一：28 个守护进程，法定人数 1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28 经理： 37(活动)，备用： 38， 12， 45， 33， 29， 10， 11， 22， 31， 47， 15， 36， 40， 32， 41， 24， 44， 34， 27， 28， 43， 35， 39， 16， 25， 26， 2， 9， 3， 4， 8， 23， 19， 17， 5， 42， 6， 21， 7， 20， 30， 13， 18， 14， 46， 1 OSD：47 OSD：47 向上，47 英寸;512 重新映射的 pgs

数据：池： 3 池， 522 pgs 对象：100M 个对象，165 TB 使用量：已使用 191 TB，466 TB/657 TB 可用 PGS：1.916% PGS 不活跃 203997294/1577308005 对象降级 (12.933%) 1314118857/1577308005 物体错放 (83.314%) 155 个活动 +尺寸不足+降级 + 重新映射+backfill_wait 140 个活动 + 重新映射 + backfill_wait 114 个活动 + 尺寸不足 + 降级 + 重新映射 63 个活动 + recovery_wait+降级 + 重新映射 30 个活动 + 清理 + 重新映射 10 创建+未完成 9 个活动 + recovery_wait + 尺寸不足 + 降级 + 重新映射 1 个活动+尺寸不足+降级+重新映射+回填

io：客户端： 291 kB/s RD， 0 B/s wr， 14 op/s rd， 16 op/s wr 恢复：6309 kB/s，2 个对象/秒

Ceph 健康详情

HEALTH_WARN 1314114780/1577303100物体错放(83.314%);数据可用性降低：10 页处于非活动状态，10 页不完整;数据冗余降级：203992956/1577303100 个对象降级 (12.933%)，492 个 pgs 不干净，342 个 pgs 降级，279 pgs 尺寸不足 OBJECT_MISPLACED 1314114780/1577303100 物体错放 (83.314%) PG_AVAILABILITY 数据可用性降低：10 页处于非活动状态，10 页不完整 PG 15.0 正在创建+未完成，正在操作 [1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647](将池测试器min_size从 12 减少可能会有所帮助;ceph.com/docs 搜索"不完整") PG 15.1 正在创建+未完成，正在操作 [1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647](将池测试器min_size从 12 减少可能会有所帮助;ceph.com/docs 搜索"不完整") PG 15.2 正在创建+未完成，正在操作 [1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647](将池测试器min_size从 12 减少可能会有所帮助;ceph.com/docs 搜索"不完整") PG 15.3 正在创建+未完成，正在操作 [1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647](将池测试器min_size从 12 减少可能会有所帮助;ceph.com/docs 搜索"不完整") PG 15.4 正在创建+未完成，正在操作 [1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647](将池测试器min_size从 12 减少可能会有所帮助;ceph.com/docs 搜索"不完整")PG 15.5 正在创建+未完成，正在操作 [1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647](将池测试器min_size从 12 减少可能会有所帮助;ceph.com/docs 搜索"不完整") PG 15.6 正在创建+未完成，正在操作 [1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647](将池测试器min_size从 12 减少可能会有所帮助;ceph.com/docs 搜索"不完整") PG 15.7 正在创建+未完成，正在操作 [1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647](将池测试器min_size从 12 减少可能会有所帮助;ceph.com/docs 搜索"不完整") PG 15.8 正在创建+未完成，正在操作 [1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647](将池测试器min_size从 12 减少可能会有所帮助;ceph.com/docs 搜索"不完整") PG 15.9 正在创建+未完成，正在操作 [1,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647,2147483647](将池测试器min_size从 12 减少可能会有所帮助;ceph.com/docs 搜索"不完整") PG_DEGRADED 数据冗余降级：203992956/1577303100 个对象降级 (12.933%)，492 个 pgs 不干净，342 个 pgs 降级，279 pgs 尺寸不足 PG 1.e2 卡住不干净 9096318.249662，当前状态为活动+大小不足+降级+重新映射，上次作用 [1,2147483647,2147483647,5,40,8,28,47,13,12,29,10,23,2147483647,35] PG 1.e3 卡在 11585.111340 中尺寸过小，当前状态为活动 + 尺寸不足+降级 + 重新映射，上次作用 [1,3,2147483647,47,11,21,32,46,28,23,2147483647,13,2147483647,19,26] PG 1.e4 卡在 11588.194871 中尺寸过小，当前状态为活动+尺寸不足+降级+重新映射+backfill_wait，上次作用 [26,6,23,46,18,30,2147483647,25,38,29,13,45,9,35,20] PG 1.e5 卡在 11588.374341 中尺寸过小，当前状态为活动+尺寸不足+降级+重新映射+backfill_wait，上次作用 [14,40,2147483647,22,18,17,29,31,28,43,34,19,33,15,32] PG 1.e6 卡在 11584.602668 中尺寸过小，当前状态为活动 + 尺寸不足+降级 + 重新映射，上次作用 [1,38,40,2147483647,46,14,2147483647,23,7,44,15,39,8,21,28] PG 1.e7 卡在 11578.574380 中尺寸过小，当前状态为活动 + 尺寸不足 + 降级 + 重新映射，上次作用 [1,13,2147483647,37,29,33,18,2147483647,9,38,23,16,42,2147483647,3] PG 1.e8 卡在 11571.385848 中尺寸过小，当前状态为活动+尺寸不足+降级+重新映射，上次操作 [1,23,2147483647,7,36,26,6,39,38,2147483647,29,11,15,2147483647,19] PG 1.e9 卡在 11588.254477 中尺寸过小，当前状态为活动+尺寸不足+降级+重新映射+backfill_wait，上次作用 [13,44,16,11,9,2147483647,32,37,45,17,20,21,40,46,2147483647] PG 1.EA 卡在 11588.242417 中大小过小，当前状态为活动 + 大小不足 + 降级 + 重新映射+backfill_wait，上次作用 [25,19,30,33,2147483647,44,20,39,17,45,43,24,2147483647,10,21] PG 1.eb 卡在 11588.329063 中尺寸过小，当前状态为活动+尺寸不足+降级+重新映射+backfill_wait，上次作用 [29,39,2147483647,2147483647,40,18,4,33,24,38,32,36,15,47,12] PG 1.ec 卡在 11587.781353 中尺寸过小，当前状态为活动 + 尺寸不足+降级 + 重新映射 + backfill_wait，上次作用 [35,37,42,11,2147483647,2147483647,30,15,39,44,43,46,17,4,7]

[...]

pg 3.fa is stuck unclean for 11649.009911, current state active+remapped+backfill_wait, last acting [36,15,42,4,21,14,34,16,17,8,39,3,2,7,19]
pg 3.fb is stuck undersized for 11580.419670, current state active+undersized+degraded+remapped, last acting [1,7,16,9,19,39,2147483647,33,26,23,20,8,35,40,29]
pg 3.fd is stuck unclean for 11649.040651, current state active+remapped+backfill_wait, last acting [17,21,8,26,15,42,46,27,7,39,14,35,4,29,25]
pg 3.fe is active+recovery_wait+degraded+remapped, acting [22,8,45,18,10,46,33,36,16,7,17,34,43,1,23]
pg 3.ff is stuck unclean for 11649.056722, current state active+remapped+backfill_wait, last acting [33,46,47,17,37,4,40,34,28,43,3,44,13,2,11]

在宝石到发光的迁移集群大小增加后，我遇到了同样的问题。在此过程中的某个地方，粉碎图权重已损坏(不是通过"重新加权"命令定位的权重)并归零。这导致我的集群做出了奇怪的放置决策(其中一个节点溢出了太多的 pg)，并且无法分配新的 pg(至少当这个节点不负责时)。

当我们编辑 crushmap(提取、反编译、手动版、重新编译、放置)并重新启动我们的集群时，问题得到了解决。我们只需手动重置所有设备的重量为 1.0(因为我们所有的磁盘都相同)。

重新启动后，可以分配新的 pg/pool，并且分配行为似乎恢复正常(很好地重新平衡)。

希望有帮助，

索尔蒂斯。

在恢复上下文中，新的擦除 PG 保持非活动状态 + 不完整

我试过什么：

完整上下文

相关内容

最新更新

热门标签：