Many restarts of controll-manager & scheduler

m4rcoschmucki · October 27, 2020, 8:16am

Hi all,

I’ve installed an high availability kubernetes cluster and verified the configuration with sonobuoy successfully:

sonobuoy results $results

Plugin: e2e
**Status: passed**
Total: 5232
Passed: 303
Failed: 0
Skipped: 4929

Plugin: systemd-logs
**Status: passed**
Total: 6
Passed: 6
Failed: 0
Skipped: 0

But my cluster has many restarts of all 3 controll-managers and all 3 schedulers (about 50 in 2 days), and I don’t know why.

I didnt’t find anything in the logs.

Could you please help me?

Many thanks for your feedback.

Regards,
Marco

m4rcoschmucki · October 29, 2020, 1:41pm

the last message I got from kube-controller and kube-scheduler before dying:

leaderelection lost

m4rcoschmucki · October 30, 2020, 8:15am

After I’ve added the following two lines to the kube-controller and kube-scheduler YAML manifest (and reboot of the master nodes), I have no more restarts of these two components:

--leader-elect-lease-duration=60s
--leader-elect-renew-deadline=40s

m4rcoschmucki · November 3, 2020, 7:39am

I didn’t worked, I had a restart of kube-scheduler and controller-manager.
The last logs before restarting:

E1101 05:23:37.499241       1 leaderelection.go:357] Failed to update lock: etcdserver: request timed out
E1101 05:24:16.459824       1 leaderelection.go:321] error retrieving resource lock kube-system/kube-scheduler: etcdserver: request timed out
E1101 05:24:28.545087       1 leaderelection.go:321] error retrieving resource lock kube-system/kube-scheduler: etcdserver: request timed out
E1101 05:25:52.746054       1 leaderelection.go:321] error retrieving resource lock kube-system/kube-scheduler: etcdserver: leader changed
E1101 05:26:38.562530       1 leaderelection.go:321] error retrieving resource lock kube-system/kube-scheduler: etcdserver: leader changed
E1101 05:27:36.189180       1 leaderelection.go:357] Failed to update lock: etcdserver: request timed out
E1101 05:27:52.873997       1 leaderelection.go:357] Failed to update lock: resource name may not be empty
E1101 05:28:00.415547       1 leaderelection.go:321] error retrieving resource lock kube-system/kube-scheduler: etcdserver: leader changed
E1101 05:28:09.177483       1 leaderelection.go:357] Failed to update lock: resource name may not be empty
I1101 05:28:09.177583       1 leaderelection.go:278] failed to renew lease kube-system/kube-scheduler: timed out waiting for the condition
F1101 05:28:09.177622       1 server.go:199] leaderelection lost

Any suggestions?

Sridhar_Konduri · December 14, 2024, 4:14am

Were you able to eventually resolve this issue? A full kubernetes reset works temporarily, but looking for the root cause

Topic		Replies	Views
Leaderelections failing, lease unable to be renewed automatically General Discussions	0	1735	January 17, 2023
Kube-scheduler restarting General Discussions kubernetes-custom-resources	0	1437	September 3, 2020
Kube-controller-manager dying in regular intervals General Discussions	1	2385	October 7, 2021
Cluster reboot results in kube-controller-manager to crashloopbackoff apparently on master election General Discussions on-prem	7	6105	February 19, 2019
Kubeadm init fails. kube-scheduler fails with error retrieving resource lock kube-system/kube-scheduler: context deadline exceeded (Client.Timeout exceeded while awaiting headers) General Discussions	1	6302	June 2, 2023

Many restarts of controll-manager & scheduler

Related topics