Seite 1 von 2

High CPU usage (>95%) detected WatchDog-Alarm

Verfasst: 28.06.2020, 23:24
von markuse
Hallo zusammen,

ich nutze RaspberryMatic nun schon länger auf einem etwas älteren Raspberry Pi (Mod. B Rev 2) und es läuft sehr zuverlässig - zumindest merke ich im täglichen Betrieb nichts von der etwas älteren HW.
Allerdings bekomme ich täglich eine Alarmmeldung wegen hoher CPU Last. Laut Log ist das immer um 2:07 Uhr der Fall.

Hat jemand eine Idee woran das liegen könnte? Prinzipiell stört mich die nächtliche Auslastung nicht weiter, allerdings sind die Alarmmeldungen (die man dann Quittieren muss) etwas "nervig". Gibts da eine Lösung, kann man den WatchDog Trigger aufgrund CPU Last z. B. deaktivieren?

Ich nutze die aktuelle Version 3.51.6.20200613

Viele Grüße & Danke im Voraus!
Markus

Code: Alles auswählen

un 19 02:07:38 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.8% matches resource limit [cpu usage > 95.0%]
Jun 19 02:07:38 homematic-raspi user.info monit[1117]: 'homematic-raspi' exec: '/bin/triggerAlarm.tcl high CPU usage (>95%) detected WatchDog-Alarm'
Jun 19 02:07:57 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.8% matches resource limit [cpu usage > 95.0%]
Jun 19 02:08:15 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 99.0% matches resource limit [cpu usage > 95.0%]
Jun 19 02:08:33 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.8% matches resource limit [cpu usage > 95.0%]
Jun 19 02:08:52 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.7% matches resource limit [cpu usage > 95.0%]
Jun 19 02:09:10 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.8% matches resource limit [cpu usage > 95.0%]
Jun 19 02:09:29 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.3% matches resource limit [cpu usage > 95.0%]
Jun 19 02:09:47 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.5% matches resource limit [cpu usage > 95.0%]
Jun 19 02:10:06 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.5% matches resource limit [cpu usage > 95.0%]
Jun 19 02:10:24 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.5% matches resource limit [cpu usage > 95.0%]
Jun 19 02:10:43 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.4% matches resource limit [cpu usage > 95.0%]
Jun 19 02:11:01 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.8% matches resource limit [cpu usage > 95.0%]
Jun 19 02:11:19 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.7% matches resource limit [cpu usage > 95.0%]
Jun 19 02:11:38 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.7% matches resource limit [cpu usage > 95.0%]
Jun 19 02:11:56 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.7% matches resource limit [cpu usage > 95.0%]
Jun 19 02:12:15 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.6% matches resource limit [cpu usage > 95.0%]
Jun 19 02:12:33 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 99.0% matches resource limit [cpu usage > 95.0%]
Jun 19 02:12:52 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.6% matches resource limit [cpu usage > 95.0%]
Jun 19 02:13:10 homematic-raspi user.info monit[1117]: 'homematic-raspi' cpu usage check succeeded [current cpu usage = 89.5%]
Jun 19 08:18:10 homematic-raspi daemon.info cuxd[676]: save paramsets(/usr/local/addons/cuxd/cuxd.ps) size:704
Jun 19 19:18:10 homematic-raspi daemon.info cuxd[676]: save paramsets(/usr/local/addons/cuxd/cuxd.ps) size:702
Jun 20 02:07:31 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.9% matches resource limit [cpu usage > 95.0%]
Jun 20 02:07:31 homematic-raspi user.info monit[1117]: 'homematic-raspi' exec: '/bin/triggerAlarm.tcl high CPU usage (>95%) detected WatchDog-Alarm'
Jun 20 02:07:49 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.8% matches resource limit [cpu usage > 95.0%]
Jun 20 02:08:08 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.5% matches resource limit [cpu usage > 95.0%]
Jun 20 02:08:26 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.8% matches resource limit [cpu usage > 95.0%]
Jun 20 02:08:45 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.7% matches resource limit [cpu usage > 95.0%]
Jun 20 02:09:03 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.6% matches resource limit [cpu usage > 95.0%]
Jun 20 02:09:22 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.8% matches resource limit [cpu usage > 95.0%]
Jun 20 02:09:40 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.7% matches resource limit [cpu usage > 95.0%]
Jun 20 02:09:58 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.8% matches resource limit [cpu usage > 95.0%]
Jun 20 02:10:17 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.5% matches resource limit [cpu usage > 95.0%]
Jun 20 02:10:35 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.4% matches resource limit [cpu usage > 95.0%]
Jun 20 02:10:54 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.3% matches resource limit [cpu usage > 95.0%]
Jun 20 02:11:12 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.7% matches resource limit [cpu usage > 95.0%]
Jun 20 02:11:31 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.7% matches resource limit [cpu usage > 95.0%]
Jun 20 02:11:49 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.7% matches resource limit [cpu usage > 95.0%]
Jun 20 02:12:07 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 99.0% matches resource limit [cpu usage > 95.0%]
Jun 20 02:12:26 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.8% matches resource limit [cpu usage > 95.0%]
Jun 20 02:12:44 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.5% matches resource limit [cpu usage > 95.0%]
Jun 20 02:13:03 homematic-raspi user.err monit[1117]: 'homematic-raspi' cpu usage of 98.1% matches resource limit [cpu usage > 95.0%]
Jun 20 02:13:21 homematic-raspi user.info monit[1117]: 'homematic-raspi' cpu usage check succeeded [current cpu usage = 29.7%]

Re: High CPU usage (>95%) detected WatchDog-Alarm

Verfasst: 28.06.2020, 23:32
von jp112sdl
markuse hat geschrieben:
28.06.2020, 23:24
Hat jemand eine Idee woran das liegen könnte
Nachts um 2 läuft der bad blocks check auf der SD Karte.

Re: High CPU usage (>95%) detected WatchDog-Alarm

Verfasst: 28.06.2020, 23:40
von markuse
Das ist schonmal gut zu wissen danke!
Ist es denn "normal", dass dadurch Alarm-Meldungen generiert werden?

Re: High CPU usage (>95%) detected WatchDog-Alarm

Verfasst: 28.06.2020, 23:44
von Baxxy
markuse hat geschrieben:
28.06.2020, 23:24
Gibts da eine Lösung, kann man den WatchDog Trigger aufgrund CPU Last z. B. deaktivieren?
Also der Auslöser ist ziemlich sicher der vor ein paar Versionen eingeführte BadlocksCheck.
Seitdem haben viele (auch ich) ab 02:07 für 5-10 Minuten eine CPU-Last von um die 100%.
Ein Alarm wurde bei mir aber noch nie deswegen getriggert. Bin aber noch auf RM 3.51.6.20200420.
Ob, und wie man den Monit in der Hinsicht entschärfen/deaktivieren kann weiß ich leider nicht.
BB_Check_CPU_Last.JPG

Re: High CPU usage (>95%) detected WatchDog-Alarm

Verfasst: 28.06.2020, 23:53
von jp112sdl
Der Check läuft schon über nice mit niedrigerer Priorität.
Evtl. mal ein Issue im Github erstellen.

Du kannst mit "monit summary" mal schauen... da steht ganz oben ein Service Name der so heißt wie dein Host.

Mit "monit unmonitor <dein.host>" kannst du das Monitoring der CPU Last stoppen und mit "monit monitor <dein.host>" wieder starten.
Das lässt du ein Skript erledigen... Um 2 Uhr stoppen, um 2:30 Uhr wieder starten oder so in dem Dreh...

Re: High CPU usage (>95%) detected WatchDog-Alarm

Verfasst: 29.06.2020, 00:23
von jmaus
Seit der 3.51.6.2020613 Version kann man auch einfach die Datei /etc/config/NoBadBlocksCheck anlegen und dann wird der BadBlocksCheck nicht automatisch jede Nacht ausgeführt.

Re: High CPU usage (>95%) detected WatchDog-Alarm

Verfasst: 29.06.2020, 00:29
von jp112sdl
jmaus hat geschrieben:
29.06.2020, 00:23
Seit der 3.51.6.2020613 Version kann man auch einfach die Datei /etc/config/NoBadBlocksCheck anlegen und dann wird der BadBlocksCheck nicht automatisch jede Nacht ausgeführt.
Aber nur wegen der CPU Warnung auf den Bad Block Check verzichten?

Re: High CPU usage (>95%) detected WatchDog-Alarm

Verfasst: 29.06.2020, 00:38
von jmaus
jp112sdl hat geschrieben:
29.06.2020, 00:29
jmaus hat geschrieben:
29.06.2020, 00:23
Seit der 3.51.6.2020613 Version kann man auch einfach die Datei /etc/config/NoBadBlocksCheck anlegen und dann wird der BadBlocksCheck nicht automatisch jede Nacht ausgeführt.
Aber nur wegen der CPU Warnung auf den Bad Block Check verzichten?
Tja, davon halte ich zwar auch nichts, aber wenn es sich nicht vermeiden lässt? Wundert mich aber trotzdem warum das in dem Fall >95% cpu last macht.

Re: High CPU usage (>95%) detected WatchDog-Alarm

Verfasst: 29.06.2020, 09:02
von Xel66
Das ist ein uralter Pi mit (ich meine) Singlecore-Prozessor und nicht gerade üppiger Speicherausstattung. Schon möglich, dass der bei den Operationen an seine Leistungsgrenzen stößt.

Gruß Xel66

Re: High CPU usage (>95%) detected WatchDog-Alarm

Verfasst: 29.06.2020, 14:56
von markuse
Danke für eure Rückmeldungen!

Ich habs jetzt erstmal folgendermaßen gelöst:
Ich hab mir ein Programm erstellt, dass den Watchdog-Alarm um 2:30 täglich zurücksetzt.
Falls der Alarm vor 2:06 oder nach 2:30 ausgelöst wurde bekomme ich eine Push-Meldung.
--> Damit habe ich weiterhin den BadBlocksCheck und den CPU-Last Check aktiv.

Wie bekommt man denn mit, wenn beim BadBlockCheck etwas schief läuft?