[求助] 關於多個集群發生NodeNotReady

justkugi · November 13, 2025, 8:52am

遇到的問題描述如下：
在 2025-11-06 約 23:00 在 “多個” 集群上發生 NodeNotReady events ，
包含了Control plane 及 Worker Node，
只有少數 2~3 node 沒有NodeNotReady events 。
其中有etcd cluster 的其中一follow 有出現fsync 延遲過高的現象(最高到8s)，持續時間約23:00~23:15 左右。
對應的API Server 有重啟2 次的紀錄，但etcd 所有member 皆無重啟。
在etcd 恢復後，無人介入的狀況後續自動恢復。

主機日誌有

/dev/sdd 的 SCSI/blk 錯誤
Nov 6 23:05:21 kernel: sd 0:0:3:0: [sdd] tag#397 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=0s
Nov 6 23:05:21 kernel: sd 0:0:3:0: [sdd] tag#397 Sense Key : Illegal Request [current]
Nov 6 23:05:21 kernel: sd 0:0:3:0: [sdd] tag#397 Add. Sense: Invalid field in cdb
Nov 6 23:05:21 kernel: sd 0:0:3:0: [sdd] tag#397 CDB: Write same(16) 93 08 00 00 00 00 00 28 59 b0 00 00 00 08 00 00
Nov 6 23:05:21 kernel: blk_update_request: critical target error, dev sdd, sector 2644400 op 0x9:(WRITE_ZEROES) flags 0x800 phys_seg 0 prio class 0

etcd 有多次 “apply request took too long” 警告。
kubelet 有 lease Put timeout。

PS：
control plane VM 在不同實體機上，storage 也不同。
kubernetes version ： 1.28.15

針對這個問題，還有哪些面向可以去探究？

謝謝大家

Topic		Replies	Views
Remaining nodes in 3 node cluster becoming "NotReady" when I power off 1 node microk8s	1	467	August 28, 2024
Master Node NotReady General Discussions	1	2770	February 18, 2024
Master node status "Not Ready" General Discussions	0	1383	June 8, 2023
Worker node going to "Not Ready State" General Discussions	0	1513	November 17, 2020
Status not ready, Why? General Discussions	0	2488	December 29, 2021

[求助] 關於多個集群發生NodeNotReady

Related topics