遇到的問題描述如下:
在 2025-11-06 約 23:00 在 “多個” 集群上發生 NodeNotReady events ,
包含了Control plane 及 Worker Node,
只有少數 2~3 node 沒有NodeNotReady events 。
其中有etcd cluster 的其中一follow 有出現fsync 延遲過高的現象(最高到8s),持續時間約23:00~23:15 左右。
對應的API Server 有重啟2 次的紀錄,但etcd 所有member 皆無重啟。
在etcd 恢復後,無人介入的狀況後續自動恢復。
主機日誌有
/dev/sdd 的 SCSI/blk 錯誤
Nov 6 23:05:21 kernel: sd 0:0:3:0: [sdd] tag#397 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
Nov 6 23:05:21 kernel: sd 0:0:3:0: [sdd] tag#397 Sense Key : Illegal Request [current]
Nov 6 23:05:21 kernel: sd 0:0:3:0: [sdd] tag#397 Add. Sense: Invalid field in cdb
Nov 6 23:05:21 kernel: sd 0:0:3:0: [sdd] tag#397 CDB: Write same(16) 93 08 00 00 00 00 00 28 59 b0 00 00 00 08 00 00
Nov 6 23:05:21 kernel: blk_update_request: critical target error, dev sdd, sector 2644400 op 0x9:(WRITE_ZEROES) flags 0x800 phys_seg 0 prio class 0
etcd 有多次 “apply request took too long” 警告。
kubelet 有 lease Put timeout。
PS:
control plane VM 在不同實體機上,storage 也不同。
kubernetes version : 1.28.15
針對這個問題,還有哪些面向可以去探究?
謝謝大家 ![]()